論文の概要: Where does In-context Translation Happen in Large Language Models
- arxiv url: http://arxiv.org/abs/2403.04510v1
- Date: Thu, 7 Mar 2024 14:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:55:38.136503
- Title: Where does In-context Translation Happen in Large Language Models
- Title(参考訳): 大規模言語モデルでコンテキスト内翻訳はどこで起こるのか
- Authors: Suzanna Sia, David Mueller, Kevin Duh
- Abstract要約: 大規模言語モデルがテキスト学習者から翻訳モデルへ移行する地域を特徴付ける。
我々は、翻訳タスクが入力表現に符号化され、文脈への注意がもはや不要な「タスク認識」ポイントの証拠を実証する。
- 参考スコア(独自算出の注目度): 18.379840329713407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised large language models have demonstrated the ability to
perform Machine Translation (MT) via in-context learning, but little is known
about where the model performs the task with respect to prompt instructions and
demonstration examples. In this work, we attempt to characterize the region
where large language models transition from in-context learners to translation
models. Through a series of layer-wise context-masking experiments on
\textsc{GPTNeo2.7B}, \textsc{Bloom3B}, \textsc{Llama7b} and
\textsc{Llama7b-chat}, we demonstrate evidence of a "task recognition" point
where the translation task is encoded into the input representations and
attention to context is no longer necessary. We further observe correspondence
between the low performance when masking out entire layers, and the task
recognition layers. Taking advantage of this redundancy results in 45\%
computational savings when prompting with 5 examples, and task recognition
achieved at layer 14 / 32. Our layer-wise fine-tuning experiments indicate that
the most effective layers for MT fine-tuning are the layers critical to task
recognition.
- Abstract(参考訳): 自己教師付き大規模言語モデルは、文脈内学習を通じて機械翻訳(MT)を実行する能力を示したが、素早い指示や実演例に関してモデルがどこでタスクを実行するかは分かっていない。
本研究では,大規模言語モデルが文脈内学習者から翻訳モデルへ移行する領域を特徴付ける。
テキストsc{gptneo2.7b}, \textsc{bloom3b}, \textsc{llama7b}, \textsc{llama7b-chat}, \textsc{llama7b-chat} の一連の階層的コンテキストマスキング実験を通じて、翻訳タスクが入力表現にエンコードされ、コンテキストへの注意がもはや不要である「タスク認識」ポイントの証拠を示す。
さらに、全層をマスキングする際の低性能とタスク認識層との対応も観察する。
この冗長性を生かして,5つの例を推し進める場合の計算コストは45倍となり,14/32層でのタスク認識が達成された。
MTファインチューニングにおいて最も効果的な層はタスク認識に不可欠な層であることを示す。
関連論文リスト
- Probing Context Localization of Polysemous Words in Pre-trained Language Model Sub-Layers [12.610445666406898]
プレトレーニング言語モデル(PLM)の細粒度サブレイヤ表現に符号化された文脈化の程度について検討する。
文脈化へのサブレイヤの主な貢献を識別するために、まず、最小限の異なる文対における多文単語のサブレイヤ表現を抽出する。
また,これらのサブレイヤ表現に符号化された文脈化情報の強みを実証的にローカライズする。
論文 参考訳(メタデータ) (2024-09-21T10:42:07Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning [68.43706033424378]
本研究では,大規模言語モデル(MLLM)において,テキスト中のテキスト長を効率的に向上する革新的な手法を提案する。
視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。
この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-04T17:59:25Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Prompting Large Language Model for Machine Translation: A Case Study [87.88120385000666]
我々は機械翻訳戦略の推進に関する体系的研究を行っている。
本稿では,プロンプトテンプレートと実演例選択の要因について検討する。
本稿では,モノリンガルデータの利用と,クロスリンガル,クロスドメイン,文-文書間伝達学習の実現可能性について検討する。
論文 参考訳(メタデータ) (2023-01-17T18:32:06Z) - Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection [3.785123406103386]
我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。
本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T07:03:30Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Larger-Context Tagging: When and Why Does It Work? [55.407651696813396]
一般的な戦略として、より大規模なコンテキストトレーニングがいつ、なぜ機能するのかを調査することに注力する。
4つのタグ付けタスクと13のデータセットに基づいてテストベッドを設定しました。
論文 参考訳(メタデータ) (2021-04-09T15:35:30Z) - Quantifying the Contextualization of Word Representations with Semantic
Class Probing [8.401007663676214]
事前訓練された言語モデルは、多くのNLPタスクにおいて、新しい最先端技術を実現している。
単語のセマンティッククラスが文脈化された埋め込みから推測できる範囲を研究することにより、文脈化の量、すなわち、単語が文脈内でどのように解釈されるかの定量化を行う。
論文 参考訳(メタデータ) (2020-04-25T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。