論文の概要: An Empirical Study of In-context Learning in LLMs for Machine
Translation
- arxiv url: http://arxiv.org/abs/2401.12097v2
- Date: Sat, 17 Feb 2024 07:08:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:17:33.532758
- Title: An Empirical Study of In-context Learning in LLMs for Machine
Translation
- Title(参考訳): 機械翻訳のためのllmsにおける文脈内学習の実証的研究
- Authors: Pranjal A. Chitale, Jay Gala, Raj Dabre
- Abstract要約: まず、ICLが主に例駆動であり、命令駆動ではないことを確認します。
分析には、実演の質や量、空間的近接性、ソース対目的の独創性などの要因が含まれている。
驚いたことに、ICLは同じタスクからサンプルを必要とせず、同じターゲット分布を持つ関連するタスクは十分である。
- 参考スコア(独自算出の注目度): 12.334358333385733
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent interest has surged in employing Large Language Models (LLMs) for
machine translation (MT) via in-context learning (ICL) (Vilar et al., 2023).
Most prior studies primarily focus on optimizing translation quality, with
limited attention to understanding the specific aspects of ICL that influence
the said quality. To this end, we perform the first of its kind, exhaustive
study of in-context learning for machine translation. We first establish that
ICL is primarily example-driven and not instruction-driven. Following this, we
conduct an extensive exploration of various aspects of the examples to
understand their influence on downstream performance. Our analysis includes
factors such as quality and quantity of demonstrations, spatial proximity, and
source versus target originality. Further, we also investigate challenging
scenarios involving indirectness and misalignment of examples to understand the
limits of ICL. While we establish the significance of the quality of the target
distribution over the source distribution of demonstrations, we further observe
that perturbations sometimes act as regularizers, resulting in performance
improvements. Surprisingly, ICL does not necessitate examples from the same
task, and a related task with the same target distribution proves sufficient.
We hope that our study acts as a guiding resource for considerations in
utilizing ICL for MT.
- Abstract(参考訳): 近年,機械翻訳(MT)にLarge Language Models(LLMs)を採用することへの関心が高まっている(Vilar et al., 2023)。
ほとんどの先行研究は翻訳品質の最適化に重点を置いており、その品質に影響を与えるiclの特定の側面の理解に限定している。
この目的を達成するために,機械翻訳における文脈内学習について,最初の徹底的な研究を行う。
まず、ICLは主に例駆動であり、命令駆動ではないことを確認します。
続いて,ダウンストリームパフォーマンスへの影響を理解するために,サンプルのさまざまな側面を広範囲に調査する。
分析には, 実演の質や量, 空間的近接性, ソース対ターゲットの独創性などが含まれる。
さらに, iclの限界を理解するために, 間接性や誤用を含む難解なシナリオについても検討した。
実演のソース分布よりも目標分布の質を重要視する一方で、摂動が時として正則化器として機能し、性能改善をもたらすことを観察する。
驚いたことに、ICLは同じタスクからサンプルを必要とせず、同じターゲット分布を持つ関連するタスクは十分である。
我々は,本研究がmtにおけるicl活用の指針となることを願っている。
関連論文リスト
- The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
本稿では,大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメント手法を提案する。
実験結果から,質問アライメント手法は多様な推論シナリオにおける多言語のパフォーマンス向上に有効であることが示唆された。
その成功のメカニズムを理解するために、表現空間、チェーン・オブ・シンク、翻訳データスケールを分析する。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Towards Multimodal In-Context Learning for Vision & Language Models [17.94596325418465]
本研究では、ICL命令に従うための最先端のVLMの機能を解析する。
大規模な混合モダリティ事前訓練を受けたモデルでさえも、少数ショット(ICL)のデモンストレーションを行う際に、インターリーブ画像とテキスト情報のアンダーパフォーマンスを利用するように暗黙的にガイドされていることが判明した。
我々は、ICLのサポート、方法論、カリキュラムで共通のVLMアライメントフレームワークを拡張するための、シンプルで、驚くほど効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-19T13:53:37Z) - DEEP-ICL: Definition-Enriched Experts for Language Model In-Context
Learning [61.85871109164743]
大規模言語モデル(LLM)におけるパラメータの多さは、コンテキスト内学習(ICL)の能力を促進すると長い間考えられてきた。
ICL のための新しいタスク定義拡張 ExPert Ensembling Method である DEEP-ICL を紹介する。
ICLの改善はモデルのサイズに直接依存するのではなく、基本的にはタスク定義やタスク誘導学習の理解に起因している、と我々は主張する。
論文 参考訳(メタデータ) (2024-03-07T05:26:41Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - In-Context Learning Demonstration Selection via Influence Analysis [12.929357709840975]
大規模言語モデル(LLM)は、そのICL(In-Context Learning)機能を実証した。
複数の利点があるにもかかわらず、ICLの一般化性能は選択されたデモに敏感である。
本研究では,インフルエンス関数によるトレーニングサンプルの影響を解析するInfICLという実演選択手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T00:39:31Z) - Lost in the Source Language: How Large Language Models Evaluate the
Quality of Machine Translation [68.43666295024714]
大規模言語モデル (LLM) は機械翻訳評価タスクにおいて顕著な成果を上げている。
本研究は,LLMが翻訳評価においてソース情報と参照情報をどのように活用するかを検討することを目的とする。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - Comparable Demonstrations are Important in In-Context Learning: A Novel
Perspective on Demonstration Selection [22.29452683679149]
In-Context Learning(ICL)は、大規模言語モデル(LLM)をダウンストリームタスクに適用するための重要なパラダイムである。
本研究は、ICLのメカニズムを新しい視点から検討し、ICLの実証選択戦略についてより深い知見を提供する。
論文 参考訳(メタデータ) (2023-12-12T18:05:46Z) - Towards Understanding In-Context Learning with Contrastive Demonstrations and Saliency Maps [7.342347950764399]
大規模言語モデル(LLM)の文脈内学習性能における様々な実演要素の役割について検討する。
具体的には, 地中構造ラベル, 入力分布, 相補的説明の影響について検討する。
論文 参考訳(メタデータ) (2023-07-11T07:03:29Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Exploring Human-Like Translation Strategy with Large Language Models [93.49333173279508]
大規模言語モデル(LLM)は、一般的なシナリオにおいて印象的な機能を示している。
本研究は,マルチアスペクト・プロンプトと選択のためのMAPSフレームワークを提案する。
品質推定に基づく選択機構を用いて,ノイズや不ヘッピーな知識を抽出する。
論文 参考訳(メタデータ) (2023-05-06T19:03:12Z) - Understanding Attention in Machine Reading Comprehension [56.72165932439117]
本稿では,多面的自己意識と最終的なパフォーマンスとの関係を検討するために,一連の分析実験を実施することに焦点を当てる。
SQuAD(英語)とCMRC 2018(中国語)の定量的解析を行い、BERT, ALBERT, ELECTRAの2つのスパン抽出MCCデータセットについて検討した。
本研究は, 問合せ及び問合せに対する注意が最重要であり, 最終結果と強い相関関係を示すものであることを明らかにする。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。