論文の概要: Where does In-context Translation Happen in Large Language Models
- arxiv url: http://arxiv.org/abs/2403.04510v1
- Date: Thu, 7 Mar 2024 14:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:55:38.136503
- Title: Where does In-context Translation Happen in Large Language Models
- Title(参考訳): 大規模言語モデルでコンテキスト内翻訳はどこで起こるのか
- Authors: Suzanna Sia, David Mueller, Kevin Duh
- Abstract要約: 大規模言語モデルがテキスト学習者から翻訳モデルへ移行する地域を特徴付ける。
我々は、翻訳タスクが入力表現に符号化され、文脈への注意がもはや不要な「タスク認識」ポイントの証拠を実証する。
- 参考スコア(独自算出の注目度): 18.379840329713407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised large language models have demonstrated the ability to
perform Machine Translation (MT) via in-context learning, but little is known
about where the model performs the task with respect to prompt instructions and
demonstration examples. In this work, we attempt to characterize the region
where large language models transition from in-context learners to translation
models. Through a series of layer-wise context-masking experiments on
\textsc{GPTNeo2.7B}, \textsc{Bloom3B}, \textsc{Llama7b} and
\textsc{Llama7b-chat}, we demonstrate evidence of a "task recognition" point
where the translation task is encoded into the input representations and
attention to context is no longer necessary. We further observe correspondence
between the low performance when masking out entire layers, and the task
recognition layers. Taking advantage of this redundancy results in 45\%
computational savings when prompting with 5 examples, and task recognition
achieved at layer 14 / 32. Our layer-wise fine-tuning experiments indicate that
the most effective layers for MT fine-tuning are the layers critical to task
recognition.
- Abstract(参考訳): 自己教師付き大規模言語モデルは、文脈内学習を通じて機械翻訳(MT)を実行する能力を示したが、素早い指示や実演例に関してモデルがどこでタスクを実行するかは分かっていない。
本研究では,大規模言語モデルが文脈内学習者から翻訳モデルへ移行する領域を特徴付ける。
テキストsc{gptneo2.7b}, \textsc{bloom3b}, \textsc{llama7b}, \textsc{llama7b-chat}, \textsc{llama7b-chat} の一連の階層的コンテキストマスキング実験を通じて、翻訳タスクが入力表現にエンコードされ、コンテキストへの注意がもはや不要である「タスク認識」ポイントの証拠を示す。
さらに、全層をマスキングする際の低性能とタスク認識層との対応も観察する。
この冗長性を生かして,5つの例を推し進める場合の計算コストは45倍となり,14/32層でのタスク認識が達成された。
MTファインチューニングにおいて最も効果的な層はタスク認識に不可欠な層であることを示す。
関連論文リスト
- Probing Multimodal Large Language Models for Global and Local Semantic
Representation [60.67306625022419]
本研究では,マルチモーダル大言語モデル (MLLM) が完全な画像情報を真に理解しているかどうかを考察する。
モデルの中間層は、よりグローバルな意味情報をエンコードすることができ、その表現は視覚言語によるエンタテインメントタスクでより良く機能する。
そして、最上位層が過度にローカル情報にフォーカスする可能性があるという結論を導き、グローバル情報をエンコードする能力は低下する。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - In-context Learning as Maintaining Coherency: A Study of On-the-fly
Machine Translation Using Large Language Models [15.309754694595322]
コンテキスト内学習をコンテキストとの整合性を維持するために望ましい生成タスクとして提示する。
まず、4つのドメインにまたがってランダムにサンプリングされたプロンプトを調査し、ドメイン内のプロンプトを表示すると翻訳性能が向上することを示した。
そこで本研究では,オンザフライ適応のためのインコンテキスト機械翻訳の有効性を実証する。
論文 参考訳(メタデータ) (2023-05-05T14:30:20Z) - Prompting Large Language Model for Machine Translation: A Case Study [87.88120385000666]
我々は機械翻訳戦略の推進に関する体系的研究を行っている。
本稿では,プロンプトテンプレートと実演例選択の要因について検討する。
本稿では,モノリンガルデータの利用と,クロスリンガル,クロスドメイン,文-文書間伝達学習の実現可能性について検討する。
論文 参考訳(メタデータ) (2023-01-17T18:32:06Z) - Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection [3.785123406103386]
我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。
本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T07:03:30Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Larger-Context Tagging: When and Why Does It Work? [55.407651696813396]
一般的な戦略として、より大規模なコンテキストトレーニングがいつ、なぜ機能するのかを調査することに注力する。
4つのタグ付けタスクと13のデータセットに基づいてテストベッドを設定しました。
論文 参考訳(メタデータ) (2021-04-09T15:35:30Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z) - Quantifying the Contextualization of Word Representations with Semantic
Class Probing [8.401007663676214]
事前訓練された言語モデルは、多くのNLPタスクにおいて、新しい最先端技術を実現している。
単語のセマンティッククラスが文脈化された埋め込みから推測できる範囲を研究することにより、文脈化の量、すなわち、単語が文脈内でどのように解釈されるかの定量化を行う。
論文 参考訳(メタデータ) (2020-04-25T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。