Fugu-MT 論文翻訳(概要): An Empirical Study of In-context Learning in LLMs for Machine Translation

論文の概要: An Empirical Study of In-context Learning in LLMs for Machine Translation

arxiv url: http://arxiv.org/abs/2401.12097v2
Date: Sat, 17 Feb 2024 07:08:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 03:17:33.532758
Title: An Empirical Study of In-context Learning in LLMs for Machine Translation
Title（参考訳）: 機械翻訳のためのllmsにおける文脈内学習の実証的研究
Authors: Pranjal A. Chitale, Jay Gala, Raj Dabre
Abstract要約: まず、ICLが主に例駆動であり、命令駆動ではないことを確認します。分析には、実演の質や量、空間的近接性、ソース対目的の独創性などの要因が含まれている。驚いたことに、ICLは同じタスクからサンプルを必要とせず、同じターゲット分布を持つ関連するタスクは十分である。
参考スコア（独自算出の注目度）: 12.334358333385733
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent interest has surged in employing Large Language Models (LLMs) for machine translation (MT) via in-context learning (ICL) (Vilar et al., 2023). Most prior studies primarily focus on optimizing translation quality, with limited attention to understanding the specific aspects of ICL that influence the said quality. To this end, we perform the first of its kind, exhaustive study of in-context learning for machine translation. We first establish that ICL is primarily example-driven and not instruction-driven. Following this, we conduct an extensive exploration of various aspects of the examples to understand their influence on downstream performance. Our analysis includes factors such as quality and quantity of demonstrations, spatial proximity, and source versus target originality. Further, we also investigate challenging scenarios involving indirectness and misalignment of examples to understand the limits of ICL. While we establish the significance of the quality of the target distribution over the source distribution of demonstrations, we further observe that perturbations sometimes act as regularizers, resulting in performance improvements. Surprisingly, ICL does not necessitate examples from the same task, and a related task with the same target distribution proves sufficient. We hope that our study acts as a guiding resource for considerations in utilizing ICL for MT.
Abstract（参考訳）: 近年,機械翻訳(MT)にLarge Language Models(LLMs)を採用することへの関心が高まっている(Vilar et al., 2023)。ほとんどの先行研究は翻訳品質の最適化に重点を置いており、その品質に影響を与えるiclの特定の側面の理解に限定している。この目的を達成するために,機械翻訳における文脈内学習について,最初の徹底的な研究を行う。まず、ICLは主に例駆動であり、命令駆動ではないことを確認します。続いて,ダウンストリームパフォーマンスへの影響を理解するために,サンプルのさまざまな側面を広範囲に調査する。分析には, 実演の質や量, 空間的近接性, ソース対ターゲットの独創性などが含まれる。さらに, iclの限界を理解するために, 間接性や誤用を含む難解なシナリオについても検討した。実演のソース分布よりも目標分布の質を重要視する一方で、摂動が時として正則化器として機能し、性能改善をもたらすことを観察する。驚いたことに、ICLは同じタスクからサンプルを必要とせず、同じターゲット分布を持つ関連するタスクは十分である。我々は,本研究がmtにおけるicl活用の指針となることを願っている。

関連論文リスト

Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [48.67380502157004]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文参考訳（メタデータ） (2025-05-16T08:50:42Z)
How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文参考訳（メタデータ） (2025-04-10T16:14:55Z)
Analyzing Context Contributions in LLM-based Machine Translation [21.95318929582271]
大規模言語モデル(LLM)は機械翻訳(MT)において最先端の性能を達成した本研究は,LLM が翻訳文を生成する際に,少数ショット例やソーステキストなど,様々な文脈をどう利用するかを検討する。我々の研究は、標準エンコーダ・デコーダMTモデルで知られているものを超えるLCMベースのMTの内部動作に光を当てた。
論文参考訳（メタデータ） (2024-10-21T17:51:41Z)
Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文参考訳（メタデータ） (2024-10-17T17:16:00Z)
Effective Self-Mining of In-Context Examples for Unsupervised Machine Translation with LLMs [16.98133269527045]
機械翻訳(MT)における文脈内例の教師なし手法を提案する。教師なし並列文のプールから最適なテキスト内例を選択するためのフィルタリング基準を導入する。本研究は,MTの文脈内マイニングにおける教師なしアプローチの有効性を実証するものである。
論文参考訳（メタデータ） (2024-10-14T18:47:04Z)
Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文参考訳（メタデータ） (2024-08-23T10:10:01Z)
ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。 LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-21T08:06:10Z)
Implicit In-context Learning [37.0562059811099]
Inlicit In-context Learning (I2CL)は、ICLの推論コストを最小限の情報損失でゼロショット学習に還元する革新的なパラダイムである。 I2CLはゼロショット推論コストで数ショットレベルのパフォーマンスを実現し、実演例のバリエーションに対して堅牢性を示す。
論文参考訳（メタデータ） (2024-05-23T14:57:52Z)
Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文参考訳（メタデータ） (2024-03-04T10:48:13Z)
C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-02-17T11:28:08Z)
In-Context Learning Learns Label Relationships but Is Not Conventional Learning [60.891931501449726]
大規模言語モデルの文脈内学習(ICL)能力について、現時点では合意が得られていない。 ICLがラベル情報をどのように活用するかという新たな洞察を提供し、機能と制限の両方を明らかにします。実験の結果, ICLの予測はコンテキスト内ラベルにほぼ常に依存しており, ICLはコンテキスト内における真に新しいタスクを学習できることがわかった。
論文参考訳（メタデータ） (2023-07-23T16:54:41Z)
Towards Understanding In-Context Learning with Contrastive Demonstrations and Saliency Maps [7.342347950764399]
大規模言語モデル(LLM)の文脈内学習性能における様々な実演要素の役割について検討する。具体的には, 地中構造ラベル, 入力分布, 相補的説明の影響について検討する。
論文参考訳（メタデータ） (2023-07-11T07:03:29Z)
Exploring Human-Like Translation Strategy with Large Language Models [93.49333173279508]
大規模言語モデル(LLM)は、一般的なシナリオにおいて印象的な機能を示している。本研究は,マルチアスペクト・プロンプトと選択のためのMAPSフレームワークを提案する。品質推定に基づく選択機構を用いて,ノイズや不ヘッピーな知識を抽出する。
論文参考訳（メタデータ） (2023-05-06T19:03:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。