論文の概要: Addressing Order Sensitivity of In-Context Demonstration Examples in
Causal Language Models
- arxiv url: http://arxiv.org/abs/2402.15637v1
- Date: Fri, 23 Feb 2024 22:39:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:41:05.475426
- Title: Addressing Order Sensitivity of In-Context Demonstration Examples in
Causal Language Models
- Title(参考訳): 因果言語モデルにおける文脈記述例の次数感性への対処
- Authors: Yanzheng Xiang, Hanqi Yan, Lin Gui, Yulan He
- Abstract要約: 本稿では、因果言語モデル(CausalLMs)が、文脈内サンプルの順序により敏感であることを示す。
情報拡張・一貫性強化手法と呼ばれる教師なしの微調整手法を導入する。
提案手法は、文脈内サンプルの順序に対する感度を低減し、堅牢な一般化性を示す。
- 参考スコア(独自算出の注目度): 19.699309544107766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning has become a popular paradigm in natural language
processing. However, its performance can be significantly influenced by the
order of in-context demonstration examples. In this paper, we found that causal
language models (CausalLMs) are more sensitive to this order compared to prefix
language models (PrefixLMs). We attribute this phenomenon to the
auto-regressive attention masks within CausalLMs, which restrict each token
from accessing information from subsequent tokens. This results in different
receptive fields for samples at different positions, thereby leading to
representation disparities across positions. To tackle this challenge, we
introduce an unsupervised fine-tuning method, termed the Information-Augmented
and Consistency-Enhanced approach. This approach utilizes contrastive learning
to align representations of in-context examples across different positions and
introduces a consistency loss to ensure similar representations for inputs with
different permutations. This enhances the model's predictive consistency across
permutations. Experimental results on four benchmarks suggest that our proposed
method can reduce the sensitivity to the order of in-context examples and
exhibit robust generalizability, particularly when demonstrations are sourced
from a pool different from that used in the training phase, or when the number
of in-context examples differs from what is used during training.
- Abstract(参考訳): インコンテキスト学習は自然言語処理において一般的なパラダイムとなっている。
しかし、その性能は、インコンテキストのデモンストレーション例の順序に大きく影響することができる。
本稿では,因果言語モデル (CausalLMs) がプレフィックス言語モデル (PrefixLMs) と比較して,この順序に対してより敏感であることを見出した。
この現象をcausallms内の自己回帰的注意マスクに分類し、各トークンがその後のトークンから情報にアクセスすることを制限した。
これにより、異なる位置のサンプルに対する受容野が異なる結果となり、位置間の表現の相違が生じる。
この課題に取り組むために,情報提供型・一貫性強化アプローチと呼ばれる教師なし微調整方式を導入する。
このアプローチはコントラスト学習を利用して、異なる位置にまたがってコンテキスト内例の表現を整列させ、異なる置換を持つ入力に対する同様の表現を確保するために一貫性損失を導入する。
これにより、モデルを置換する予測一貫性が向上する。
4つのベンチマークにおける実験結果から,提案手法は,特にトレーニングフェーズで使用されるものと異なるプールからデモンストレーションが抽出された場合や,トレーニング中に使用するサンプル数が異なる場合において,文脈内サンプルの順序に対する感度を低減し,堅牢な一般化性を示すことが示唆された。
関連論文リスト
- Pattern-Aware Chain-of-Thought Prompting in Large Language Models [26.641713417293538]
CoT(Chain-of- Thought)は言語モデルに複雑な多段階推論を誘導する。
このようなタスクにおいて、基礎となる推論パターンがより重要な役割を果たすことを示す。
本稿では,デモパターンの多様性を考慮したプロンプト手法であるPattern-Aware CoTを提案する。
論文 参考訳(メタデータ) (2024-04-23T07:50:00Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - In-Context Example Ordering Guided by Label Distributions [34.30216341226014]
最適化問題としてコンテキスト内注文を定式化する。
ラベルの比率から学習するという考えに触発され、モデルの確率予測によって導かれる文脈内サンプル注文の原則を2つ提案する。
提案手法は, 分類精度の向上, モデルの誤校正の低減, 文脈内事例の選択により, ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-18T04:08:10Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - In-Context Demonstration Selection with Cross Entropy Difference [95.21947716378641]
大規模言語モデル(LLM)は、ゼロショットタスクのパフォーマンスを改善するためにコンテキスト内デモを使用することができる。
テキスト内デモを選択するためのクロスエントロピー差分法(CED)を提案する。
論文 参考訳(メタデータ) (2023-05-24T05:04:00Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Improving Few-Shot Performance of Language Models via Nearest Neighbor
Calibration [12.334422701057674]
In-context Learning のための近辺校正フレームワークを提案する。
インコンテキスト学習パラダイムは、トレーニングインスタンスを推論する際に誤ったラベルを生成するという現象にインスパイアされている。
テキスト分類タスクの多種多様な実験により,本手法はテキスト内学習を大幅に改善することが示された。
論文 参考訳(メタデータ) (2022-12-05T12:49:41Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Disentangled Contrastive Learning for Learning Robust Textual
Representations [13.880693856907037]
運動量表現一貫性の概念を導入し,特徴を整合させ,一様性に適合しながらパワー正規化を活用する。
NLPベンチマークの実験結果から,本手法はベースラインよりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2021-04-11T03:32:49Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。