Fugu-MT 論文翻訳(概要): Fast, Effective and Self-Supervised: Transforming Masked LanguageModels into Universal Lexical and Sentence Encoders

論文の概要: Fast, Effective and Self-Supervised: Transforming Masked LanguageModels into Universal Lexical and Sentence Encoders

arxiv url: http://arxiv.org/abs/2104.08027v1
Date: Fri, 16 Apr 2021 10:49:56 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-19 21:46:21.981828
Title: Fast, Effective and Self-Supervised: Transforming Masked LanguageModels into Universal Lexical and Sentence Encoders
Title（参考訳）: 高速・効果的・自己監視:マスク言語モデルからユニバーサル語彙・文エンコーダへの変換
Authors: Fangyu Liu, Ivan Vuli\'c, Anna Korhonen, Nigel Collier
Abstract要約: 余分なデータや監督なしでも、タスクを普遍的な語彙や文エンコーダに変換することが可能であることを示す。極めて単純で高速で効果的なコントラスト学習手法であるMirror-BERTを提案する。 Mirror-BERT は完全に同一またはわずかに修正された文字列対を正の(同義の)微調整例として依存する。語彙レベルと文レベルの両方のタスクにおいて、異なるドメインや異なる言語でMirror-BERTを使用したオフザシェルフよりも大幅に向上したことを報告します。
参考スコア（独自算出の注目度）: 66.76141128555099
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pretrained Masked Language Models (MLMs) have revolutionised NLP in recent years. However, previous work has indicated that off-the-shelf MLMs are not effective as universal lexical or sentence encoders without further task-specific fine-tuning on NLI, sentence similarity, or paraphrasing tasks using annotated task data. In this work, we demonstrate that it is possible to turn MLMs into effective universal lexical and sentence encoders even without any additional data and without any supervision. We propose an extremely simple, fast and effective contrastive learning technique, termed Mirror-BERT, which converts MLMs (e.g., BERT and RoBERTa) into such encoders in less than a minute without any additional external knowledge. Mirror-BERT relies on fully identical or slightly modified string pairs as positive (i.e., synonymous) fine-tuning examples, and aims to maximise their similarity during identity fine-tuning. We report huge gains over off-the-shelf MLMs with Mirror-BERT in both lexical-level and sentence-level tasks, across different domains and different languages. Notably, in the standard sentence semantic similarity (STS) tasks, our self-supervised Mirror-BERT model even matches the performance of the task-tuned Sentence-BERT models from prior work. Finally, we delve deeper into the inner workings of MLMs, and suggest some evidence on why this simple approach can yield effective univeral lexical and sentence encoders.
Abstract（参考訳）: MLM (Pretrained Masked Language Models) は近年NLPに革命をもたらした。しかし, 従来の研究は, NLI, 文類似性, あるいは注釈付きタスクデータを用いたパラフレーズ処理を行わずに, 汎用語彙や文エンコーダとして有効でないことを示した。本研究では,MLMを余分なデータや監督なしに,有効で普遍的な語彙および文エンコーダに変換することが可能であることを実証する。我々は、MLM(例えばBERTやRoBERTa)を1分以内で変換する、極めて単純で高速で効果的なコントラスト学習手法であるMirror-BERTを提案する。 Mirror-BERT は完全に同一あるいはわずかに修正された文字列対を正(即ち同義)の微調整の例として頼りにしており、アイデンティティの微調整中にそれらの類似性を最大化することを目指している。語彙レベルと文レベルの両方のタスクにおいて、異なるドメインや異なる言語で、Mirror-BERTを用いた既製のMLMよりも大幅に向上したことを報告した。特に、標準文意味類似性(STS)タスクでは、自己教師型Mirror-BERTモデルは、タスクチューニングされたSentence-BERTモデルの性能を以前の作業と一致させる。最後に, MLMの内部動作を深く掘り下げ, この単純なアプローチが, 効果的な一進的語彙および文エンコーダを生成できる理由を示唆する。

関連論文リスト

Flipping Knowledge Distillation: Leveraging Small Models' Expertise to Enhance LLMs in Text Matching [16.725632407644884]
大規模言語モデルでは,より小さな言語モデルから学習する。具体的には,デコーダのみのLLMとより小さなエンコーダモデルとのアーキテクチャ的ギャップに対処する。金融および医療ベンチマークの実験は、実世界のアプリケーションと同様に、その有効性を確認している。
論文参考訳（メタデータ） (2025-07-08T02:54:15Z)
GEM: Empowering LLM for both Embedding Generation and Language Understanding [11.081595808236239]
高品質なテキスト埋め込みを生成するために,GEM(Generative Embedding large Language Model)を提案する。本手法では,新たな特殊トークンをテキスト本体に挿入し,アテンションマスクを操作することでテキストの要約埋め込みを生成する。提案手法は,従来のNLP性能を維持しつつ,最先端のテキスト埋め込み機能でLCMを活用できることが示唆された。
論文参考訳（メタデータ） (2025-06-04T18:02:07Z)
Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。 DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。 DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文参考訳（メタデータ） (2024-11-29T11:24:23Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
Bridging the Gap between Different Vocabularies for LLM Ensemble [10.669552498083709]
様々な大言語モデル(LLM)における語彙の相違は、これまでの研究を制約してきた。語彙アライメント(EVA)を用いたLLMのアンサンブル手法を提案する。 EVAは様々なLLM間の語彙ギャップを橋渡しし、各生成ステップで巧妙にアンサンブルすることができる。
論文参考訳（メタデータ） (2024-04-15T06:28:20Z)
ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文参考訳（メタデータ） (2024-01-12T06:28:54Z)
Which Syntactic Capabilities Are Statistically Learned by Masked Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文参考訳（メタデータ） (2024-01-03T02:44:02Z)
Take One Step at a Time to Know Incremental Utility of Demonstration: An Analysis on Reranking for Few-Shot In-Context Learning [23.932500424117244]
In-Context Learning (ICL)は大規模言語モデル(LLM)の創発的能力である従来の研究では、ラベルとしてLLMの出力を使用することが、デモを選択するためのトレーニングモデルに有効であることが示されている。本稿では,LLMの出力確率に着目して,異なるユーティリティ関数の解析を行う。
論文参考訳（メタデータ） (2023-11-16T07:03:54Z)
VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。 VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文参考訳（メタデータ） (2023-05-22T17:51:22Z)
Representation Deficiency in Masked Language Modeling [107.39136254013042]
我々は Masked Autoencoder アーキテクチャを事前トレーニングする MAE-LM を提案し,$tt[MASK]$トークンをエンコーダから除外する。 GLUE と SQuAD ベンチマークで微調整した場合,MAE-LM は,事前学習したモデルに対して,異なる事前学習設定とモデルサイズで一貫した性能を示した。
論文参考訳（メタデータ） (2023-02-04T01:54:17Z)
Contextual Representation Learning beyond Masked Language Modeling [45.46220173487394]
BERTのような言語モデル(MLM)を文脈的に学習する。これらの課題に対処するために,直接的にグローバルな意味論を表現学習するTACOを提案する。 TACOは、文脈化された表現に隠された文脈意味を抽出し、モデルにグローバルな意味論への参加を促す。
論文参考訳（メタデータ） (2022-04-08T16:18:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。