Fugu-MT 論文翻訳(概要): An Empirical Analysis of In-context Learning Abilities of LLMs for MT

論文の概要: An Empirical Analysis of In-context Learning Abilities of LLMs for MT

arxiv url: http://arxiv.org/abs/2401.12097v1
Date: Mon, 22 Jan 2024 16:35:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 13:27:04.382279
Title: An Empirical Analysis of In-context Learning Abilities of LLMs for MT
Title（参考訳）: MT用LLMの文脈内学習能力に関する実証的検討
Authors: Pranjal A. Chitale, Jay Gala, Varun Gumma, Mitesh M. Khapra, Raj Dabre
Abstract要約: In-context Learning (ICL)は、大規模言語モデル(LLM)におけるゼロショット性能よりも優れた性能を一貫して証明している。機械翻訳作業における文脈内実演の異なる側面の影響について検討する。特にBLOOM-7B誘導体はノイズの影響を強く受けている。このことは、ICLの堅牢性は、ノイズの種類、摂動方向(ソースまたはターゲット)、特定のモデルの事前訓練の程度、適用可能な場合の下流タスクの微調整など、いくつかの要因によって制御される可能性があることを示唆している。
参考スコア（独自算出の注目度）: 27.396774949833233
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In-context learning (ICL) has consistently demonstrated superior performance over zero-shot performance in large language models (LLMs). However, the understanding of the dynamics of ICL and the aspects that influence downstream performance remains limited, especially for natural language generation (NLG) tasks. This work aims to address this gap by investigating the ICL capabilities of LLMs and studying the impact of different aspects of the in-context demonstrations for the task of machine translation (MT). Our preliminary investigations aim to discern whether in-context learning (ICL) is predominantly influenced by demonstrations or instructions by applying diverse perturbations to in-context demonstrations while preserving the task instruction. We observe varying behavior to perturbed examples across different model families, notably with BLOOM-7B derivatives being severely influenced by noise, whereas Llama 2 derivatives not only exhibit robustness but also tend to show enhancements over the clean baseline when subject to perturbed demonstrations. This suggests that the robustness of ICL may be governed by several factors, including the type of noise, perturbation direction (source or target), the extent of pretraining of the specific model, and fine-tuning for downstream tasks if applicable. Further investigation is warranted to develop a comprehensive understanding of these factors in future research.
Abstract（参考訳）: In-context Learning (ICL) は、大規模言語モデル (LLM) においてゼロショット性能よりも優れた性能を示した。しかし、特に自然言語生成(NLG)タスクにおいて、ICLのダイナミクスと下流のパフォーマンスに影響を与える側面の理解は限られている。本研究の目的は,LLMのICL能力の解明と,機械翻訳(MT)タスクにおけるコンテキスト内デモンストレーションの異なる側面の影響について検討することである。本研究は,タスク命令を維持しつつ,コンテキスト内デモに多様な摂動を適用して,インコンテキスト学習(icl)がデモやインストラクションの影響を主に受けているかを見極めることを目的としている。特にブルーム-7b誘導体はノイズの影響を強く受けているのに対し,ラマ2誘導体はロバスト性を示すだけでなく,摂動デモを行う際に清潔なベースラインを超えた拡張を示す傾向がある。このことは、ICLの堅牢性は、ノイズの種類、摂動方向(ソースまたはターゲット)、特定のモデルの事前訓練の程度、適用可能な場合の下流タスクの微調整など、いくつかの要因によって制御される可能性があることを示唆している。今後の研究でこれらの要因の包括的理解を深めるべく、さらなる調査が求められている。

関連論文リスト

Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [48.67380502157004]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文参考訳（メタデータ） (2025-05-16T08:50:42Z)
How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文参考訳（メタデータ） (2025-04-10T16:14:55Z)
Analyzing Context Contributions in LLM-based Machine Translation [21.95318929582271]
大規模言語モデル(LLM)は機械翻訳(MT)において最先端の性能を達成した本研究は,LLM が翻訳文を生成する際に,少数ショット例やソーステキストなど,様々な文脈をどう利用するかを検討する。我々の研究は、標準エンコーダ・デコーダMTモデルで知られているものを超えるLCMベースのMTの内部動作に光を当てた。
論文参考訳（メタデータ） (2024-10-21T17:51:41Z)
Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文参考訳（メタデータ） (2024-10-17T17:16:00Z)
Effective Self-Mining of In-Context Examples for Unsupervised Machine Translation with LLMs [16.98133269527045]
機械翻訳(MT)における文脈内例の教師なし手法を提案する。教師なし並列文のプールから最適なテキスト内例を選択するためのフィルタリング基準を導入する。本研究は,MTの文脈内マイニングにおける教師なしアプローチの有効性を実証するものである。
論文参考訳（メタデータ） (2024-10-14T18:47:04Z)
Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文参考訳（メタデータ） (2024-08-23T10:10:01Z)
ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。 LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-21T08:06:10Z)
Implicit In-context Learning [37.0562059811099]
Inlicit In-context Learning (I2CL)は、ICLの推論コストを最小限の情報損失でゼロショット学習に還元する革新的なパラダイムである。 I2CLはゼロショット推論コストで数ショットレベルのパフォーマンスを実現し、実演例のバリエーションに対して堅牢性を示す。
論文参考訳（メタデータ） (2024-05-23T14:57:52Z)
Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文参考訳（メタデータ） (2024-03-04T10:48:13Z)
C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-02-17T11:28:08Z)
In-Context Learning Learns Label Relationships but Is Not Conventional Learning [60.891931501449726]
大規模言語モデルの文脈内学習(ICL)能力について、現時点では合意が得られていない。 ICLがラベル情報をどのように活用するかという新たな洞察を提供し、機能と制限の両方を明らかにします。実験の結果, ICLの予測はコンテキスト内ラベルにほぼ常に依存しており, ICLはコンテキスト内における真に新しいタスクを学習できることがわかった。
論文参考訳（メタデータ） (2023-07-23T16:54:41Z)
Towards Understanding In-Context Learning with Contrastive Demonstrations and Saliency Maps [7.342347950764399]
大規模言語モデル(LLM)の文脈内学習性能における様々な実演要素の役割について検討する。具体的には, 地中構造ラベル, 入力分布, 相補的説明の影響について検討する。
論文参考訳（メタデータ） (2023-07-11T07:03:29Z)
Exploring Human-Like Translation Strategy with Large Language Models [93.49333173279508]
大規模言語モデル(LLM)は、一般的なシナリオにおいて印象的な機能を示している。本研究は,マルチアスペクト・プロンプトと選択のためのMAPSフレームワークを提案する。品質推定に基づく選択機構を用いて,ノイズや不ヘッピーな知識を抽出する。
論文参考訳（メタデータ） (2023-05-06T19:03:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。