論文の概要: Self-Improving In-Context Learning
- arxiv url: http://arxiv.org/abs/2605.23180v1
- Date: Fri, 22 May 2026 03:01:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.174753
- Title: Self-Improving In-Context Learning
- Title(参考訳): 自己改善型インテクスト学習
- Authors: Baturay Saglam, Dionysis Kalogerias,
- Abstract要約: 本稿では,短時間の即時テストの埋め込みを最適化し,文脈内学習を改善することを提案する。
我々はこの信号を有界自己監督キャリブレーション法として定式化する。
ICLタスクの包括的なスイート全体において、提案されたキャリブレーションはベースモデルを改善したり、一致させたりすることで、ほとんどのタスクにおける分類固有のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 3.9202238580555417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose to improve in-context learning (ICL) by optimizing the continuous embeddings of a fixed few-shot prompt at test time. The key observation is that the log-probabilities a model assigns to its demonstrated outputs$\unicode{x2013}$available from a single forward pass without generating any tokens$\unicode{x2013}$provide a meaningful signal for how well the model has inferred the task from its demonstrations. We formalize this signal as a bounded, self-supervised confidence proxy and maximize it via zeroth-order optimization over the prompt embeddings, yielding a test-time calibration procedure. The approach requires no finetuning, no token generation, no predefined label set, and no external data, making it equally applicable to both classification and free-form generation tasks. Across a comprehensive suite of ICL tasks, the proposed calibration consistently matches or improves upon the base model and outperforms classification-specific baselines on most tasks. The statistically significant correlation between proxy improvement and downstream accuracy gain confirms that the proposed proxy encodes a reliable optimization signal for in-context learning.
- Abstract(参考訳): テスト時に固定された数発のプロンプトの連続的な埋め込みを最適化することにより、文脈内学習(ICL)を改善することを提案する。
キーとなる観察は、モデルがその実証された出力に割り当てるログ確率$\unicode{x2013}$は、トークンを生成せずに単一のフォワードパスから利用できる$\unicode{x2013}$provideは、モデルがそのデモからどのようにタスクを推測したかを示す有意義な信号である。
我々は、この信号を有界な自己監督型信頼プロキシとして定式化し、即時埋め込みによるゼロ階最適化により最大化し、テスト時間校正手順を生成する。
このアプローチでは、微調整もトークン生成も、事前に定義されたラベルセットも、外部データも必要とせず、分類とフリーフォーム生成の両方に等しく適用できる。
ICLタスクの包括的なスイート全体において、提案されたキャリブレーションは、ベースモデルに一貫して適合または改善され、ほとんどのタスクにおいて、分類固有のベースラインを上回っている。
プロキシ改善と下流精度ゲインの統計的に有意な相関は、提案したプロキシがテキスト内学習のための信頼性の高い最適化信号を符号化していることを確認する。
関連論文リスト
- Unsupervised Confidence Calibration for Reasoning LLMs from a Single Generation [2.526814143603023]
言語モデルの推論は、ますます複雑なタスクを解決することができるが、信頼性の高いデプロイメントに必要なキャリブレーションされた信頼推定を生成するのに苦労する。
推論時間に1世代しか利用できない場合,LLMを推論するための教師なし信頼度校正手法を提案する。
このアプローチでは、ラベル付きデータのオフラインサンプリングを使用して、自己整合性ベースのプロキシターゲットを導出し、この信号を軽量なデプロイメント時間信頼性予測器に蒸留する。
論文 参考訳(メタデータ) (2026-04-21T13:25:25Z) - From Tokens to Steps: Verification-Aware Speculative Decoding for Efficient Multi-Step Reasoning [18.37034672013596]
SpecGuardは、モデル内部信号のみを使用してステップレベルの検証を行う投機的復号化フレームワークである。
実験の結果、SpecGuardの精度は3.6%向上し、レイテンシは11%削減された。
論文 参考訳(メタデータ) (2026-04-16T17:20:13Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。