論文の概要: Surprise Calibration for Better In-Context Learning
- arxiv url: http://arxiv.org/abs/2506.12796v1
- Date: Sun, 15 Jun 2025 10:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.890533
- Title: Surprise Calibration for Better In-Context Learning
- Title(参考訳): 文脈内学習改善のためのサプライズ校正
- Authors: Zhihang Tan, Jingrui Hou, Ping Wang, Qibiao Hu, Peng Zhu,
- Abstract要約: In-context Learning (ICL) は、大規模言語モデルにおけるタスク適応のための強力なパラダイムとして登場した。
既存のバイアス校正法は、すべての入力に対して固定クラス事前を適用し、動的ICL設定におけるそれらの有効性を制限している。
本稿では,クラス先行の時間的ダイナミクスをキャプチャする新しいメソッド・サプライズ(SC)を提案する。
- 参考スコア(独自算出の注目度): 6.566285172635043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) has emerged as a powerful paradigm for task adaptation in large language models (LLMs), where models infer underlying task structures from a few demonstrations. However, ICL remains susceptible to biases that arise from prior knowledge and contextual demonstrations, which can degrade the performance of LLMs. Existing bias calibration methods typically apply fixed class priors across all inputs, limiting their efficacy in dynamic ICL settings where the context for each query differs. To address these limitations, we adopt implicit sequential Bayesian inference as a framework for interpreting ICL, identify "surprise" as an informative signal for class prior shift, and introduce a novel method--Surprise Calibration (SC). SC leverages the notion of surprise to capture the temporal dynamics of class priors, providing a more adaptive and computationally efficient solution for in-context learning. We empirically demonstrate the superiority of SC over existing bias calibration techniques across a range of benchmark natural language processing tasks.
- Abstract(参考訳): In-context Learning (ICL)は、大規模言語モデル(LLM)におけるタスク適応のための強力なパラダイムとして登場し、モデルがいくつかのデモから基礎となるタスク構造を推測する。
しかし、ICLは、LLMの性能を低下させるような、事前の知識や文脈の実証から生じるバイアスの影響を受けやすいままである。
既存のバイアス校正法は通常、すべての入力に対して固定クラスプリエントを適用し、各クエリのコンテキストが異なる動的ICL設定での有効性を制限している。
これらの制約に対処するために、暗黙的なシーケンシャルベイズ推論をICLを解釈するためのフレームワークとして採用し、クラス事前シフトのための情報信号として「サプライズ」を識別し、新しい手法である-Surprise Calibration (SC)を導入する。
SCは、サプライズの概念を活用して、クラス事前の時間的ダイナミクスを捉え、より適応的で計算的に効率的なインコンテキスト学習ソリューションを提供する。
ベンチマーク自然言語処理タスクにおいて,既存のバイアス校正手法よりもSCの方が優れていることを実証的に示す。
関連論文リスト
- Corrective In-Context Learning: Evaluating Self-Correction in Large Language Models [0.0]
In-context Learning (ICL) は、大規模言語モデル (LLM) をNLPタスクに用いた。
有効性にもかかわらず、ICLは特に挑戦的な例でエラーを起こしやすい。
提案手法は,モデルの不正確な予測と地上の真偽の補正を併用する手法であるCICL(Corative In-Context Learning)を提案する。
論文 参考訳(メタデータ) (2025-03-20T10:39:39Z) - Disentangling Latent Shifts of In-Context Learning Through Self-Training [0.0]
STICL(Self-Training ICL)は,クエリの潜時シフトから自己学習へ移行するデモの潜時シフトを解消する手法である。
STICLは擬似ラベルを生成するために教師モデルを使用し、アダプタモジュールにエンコードされたこれらのラベルを使用して学生モデルを訓練する。
実験結果から,STICLは一般化と安定性を向上し,従来のICL手法と他の不整合戦略を一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-02T13:00:21Z) - Batch Calibration: Rethinking Calibration for In-Context Learning and Prompt Engineering [12.348320788446841]
Batch (BC) は、バッチ入力からコンテキストバイアスを制御する、単純だが直感的な手法である。
BCはゼロショットであり、推論のみであり、追加コストは無視できない。
10以上の自然言語理解および画像分類タスクにおいて,従来のキャリブレーションベースラインに対する最先端性能を示す。
論文 参考訳(メタデータ) (2023-09-29T13:55:45Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。