Fugu-MT 論文翻訳(概要): Addressing Order Sensitivity of In-Context Demonstration Examples in Causal Language Models

論文の概要: Addressing Order Sensitivity of In-Context Demonstration Examples in Causal Language Models

arxiv url: http://arxiv.org/abs/2402.15637v2
Date: Thu, 6 Jun 2024 12:01:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 21:12:20.172676
Title: Addressing Order Sensitivity of In-Context Demonstration Examples in Causal Language Models
Title（参考訳）: 因果的言語モデルにおける文脈記述例の次数感性への対処
Authors: Yanzheng Xiang, Hanqi Yan, Lin Gui, Yulan He,
Abstract要約: インコンテクスト学習は、インコンテクストの実例の順序に大きく影響される。情報拡張・一貫性強化手法と呼ばれる教師なしの微調整手法を導入する。提案手法は,文脈内サンプルの順序に対するCausalLMsの感度を低減し,堅牢な一般化性を示す。
参考スコア（独自算出の注目度）: 18.03259038587496
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In-context learning has become a popular paradigm in natural language processing. However, its performance can be significantly influenced by the order of in-context demonstration examples. In this paper, we found that causal language models (CausalLMs) are more sensitive to this order compared to prefix language models (PrefixLMs). We attribute this phenomenon to the auto-regressive attention masks within CausalLMs, which restrict each token from accessing information from subsequent tokens. This results in different receptive fields for samples at different positions, thereby leading to representation disparities across positions. To tackle this challenge, we introduce an unsupervised fine-tuning method, termed the Information-Augmented and Consistency-Enhanced approach. This approach utilizes contrastive learning to align representations of in-context examples across different positions and introduces a consistency loss to ensure similar representations for inputs with different permutations. This enhances the model's predictive consistency across permutations. Experimental results on five benchmarks suggest that our proposed method can reduce the sensitivity of CausalLMs to the order of in-context examples and exhibit robust generalizability, particularly when demonstrations are sourced from a candidate pool different from that used in the training phase, or when the number of in-context examples differs from what is used during training.
Abstract（参考訳）: インコンテキスト学習は自然言語処理において一般的なパラダイムとなっている。しかし、その性能は文脈内実例の順序に大きく影響される。本稿では,因果言語モデル (CausalLMs) がプレフィックス言語モデル (PrefixLMs) と比較して,この順序に対してより敏感であることを見出した。本稿では,この現象をCausalLM内の自己回帰型アテンションマスクとみなし,各トークンが後続のトークンから情報にアクセスすることを制限している。この結果、異なる位置のサンプルに対する異なる受容場が得られ、結果として位置間の差が表される。この課題に対処するために、情報強化・一貫性強化アプローチと呼ばれる教師なしの微調整手法を導入する。このアプローチはコントラスト学習を利用して、異なる位置にまたがってコンテキスト内例の表現を整列させ、異なる置換を持つ入力に対する同様の表現を確保するために一貫性損失を導入する。これにより、モデルを置換する予測一貫性が向上する。 5つのベンチマークによる実験結果から,本手法は実例の順序に適応し,特に実例が学習段階と異なる候補プールから得られる場合や,実例の数が異なる場合など,強靭な一般化性を示す可能性が示唆された。

関連論文リスト

Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文参考訳（メタデータ） (2025-07-13T19:36:17Z)
Pattern-Aware Chain-of-Thought Prompting in Large Language Models [26.641713417293538]
CoT(Chain-of- Thought)は言語モデルに複雑な多段階推論を誘導する。このようなタスクにおいて、基礎となる推論パターンがより重要な役割を果たすことを示す。本稿では,デモパターンの多様性を考慮したプロンプト手法であるPattern-Aware CoTを提案する。
論文参考訳（メタデータ） (2024-04-23T07:50:00Z)
Bayesian Example Selection Improves In-Context Learning for Speech, Text, and Visual Modalities [15.931776592470895]
大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて新しいタスクに適応できる本稿では,ICLのための新しいベイジアン・イン・コンテクスト・サンプル・セレクション法(ByCS)を提案する。
論文参考訳（メタデータ） (2024-04-23T03:42:48Z)
ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-31T05:56:15Z)
In-Context Example Ordering Guided by Label Distributions [34.30216341226014]
最適化問題としてコンテキスト内注文を定式化する。ラベルの比率から学習するという考えに触発され、モデルの確率予測によって導かれる文脈内サンプル注文の原則を2つ提案する。提案手法は, 分類精度の向上, モデルの誤校正の低減, 文脈内事例の選択により, ベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-18T04:08:10Z)
Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文参考訳（メタデータ） (2024-01-22T16:25:27Z)
In-Context Demonstration Selection with Cross Entropy Difference [95.21947716378641]
大規模言語モデル(LLM)は、ゼロショットタスクのパフォーマンスを改善するためにコンテキスト内デモを使用することができる。テキスト内デモを選択するためのクロスエントロピー差分法(CED)を提案する。
論文参考訳（メタデータ） (2023-05-24T05:04:00Z)
Active Learning Principles for In-Context Learning with Large Language Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。 ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文参考訳（メタデータ） (2023-05-23T17:16:04Z)
Improving Few-Shot Performance of Language Models via Nearest Neighbor Calibration [12.334422701057674]
In-context Learning のための近辺校正フレームワークを提案する。インコンテキスト学習パラダイムは、トレーニングインスタンスを推論する際に誤ったラベルを生成するという現象にインスパイアされている。テキスト分類タスクの多種多様な実験により,本手法はテキスト内学習を大幅に改善することが示された。
論文参考訳（メタデータ） (2022-12-05T12:49:41Z)
An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-07T06:50:27Z)
Disentangled Contrastive Learning for Learning Robust Textual Representations [13.880693856907037]
運動量表現一貫性の概念を導入し,特徴を整合させ,一様性に適合しながらパワー正規化を活用する。 NLPベンチマークの実験結果から,本手法はベースラインよりも優れた結果が得られることが示された。
論文参考訳（メタデータ） (2021-04-11T03:32:49Z)
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2020-04-20T02:47:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。