論文の概要: Test-Time Adaptation via Many-Shot Prompting: Benefits, Limits, and Pitfalls
- arxiv url: http://arxiv.org/abs/2603.05829v1
- Date: Fri, 06 Mar 2026 02:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.893392
- Title: Test-Time Adaptation via Many-Shot Prompting: Benefits, Limits, and Pitfalls
- Title(参考訳): マルチショットプロンプトによるテスト時間適応:メリット,限界,落とし穴
- Authors: Shubhangi Upasani, Chen Wu, Jay Rainton, Bo Li, Changran Hu, Qizheng Zhang, Urmish Thakker,
- Abstract要約: テスト時適応により、大きな言語モデルでは、モデルパラメータを更新することなく、推論時の振る舞いを変更できる。
マルチショットプロンプトは、多数のコンテキスト内学習例を入力空間のテスト時間更新として注入する一般的なアプローチである。
本稿では,タスクやモデルバックボーンにまたがるマルチショットのプロンプトに関する実証的研究を行い,更新の規模やオーダ,選択ポリシなどによってパフォーマンスがどう変化するか分析する。
デモは高い情報ゲインを提供するが、選択戦略に非常に敏感であり、オープンな生成タスクに対して限られた利点を示すことが多い。
- 参考スコア(独自算出の注目度): 6.5382219123040874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time adaptation enables large language models (LLMs) to modify their behavior at inference without updating model parameters. A common approach is many-shot prompting, where large numbers of in-context learning (ICL) examples are injected as an input-space test-time update. Although performance can improve as more demonstrations are added, the reliability and limits of this update mechanism remain poorly understood, particularly for open-source models. We present an empirical study of many-shot prompting across tasks and model backbones, analyzing how performance varies with update magnitude, example ordering, and selection policy. We further study Dynamic and Reinforced ICL as alternative test-time update strategies that control which information is injected and how it constrains model behavior. We find that many-shot prompting is effective for structured tasks where demonstrations provide high information gain, but is highly sensitive to selection strategy and often shows limited benefits for open-ended generation tasks. Overall, we characterize the practical limits of prompt-based test-time adaptation and outline when input-space updates are beneficial versus harmful.
- Abstract(参考訳): テスト時適応により、大きな言語モデル(LLM)はモデルパラメータを更新することなく、推論時の振る舞いを変更できる。
一般的なアプローチはマルチショットプロンプトであり、インコンテキスト学習(ICL)の多数の例をインプットスペースのテスト時間更新として注入する。
より多くのデモが追加されるにつれてパフォーマンスは向上するが、この更新メカニズムの信頼性と限界は、特にオープンソースモデルではよく理解されていない。
本稿では,タスクやモデルバックボーンにまたがるマルチショットのプロンプトに関する実証的研究を行い,更新の規模やオーダ,選択ポリシなどによってパフォーマンスがどう変化するか分析する。
さらに、動的かつ強化されたICLを、どの情報が注入され、どのようにモデル動作に制約されるかを制御するテスト時更新戦略として検討する。
デモは高い情報ゲインを提供するが、選択戦略に非常に敏感であり、オープンな生成タスクに対して限られたメリットを示すことが多い。
全体として、インプットスペース更新が有益か有害かの場合に、プロンプトベースのテスト時間適応の実践的限界と概要を特徴づける。
関連論文リスト
- Efficient Test-Time Scaling for Small Vision-Language Models [14.654047034885288]
小型ビジョンランゲージモデル (Small Vision-Language Models, VLM) は、より大きなモデルに対する計算的に効率的な代替手段を提供する。
既存の手法は典型的には計算的に要求され、小さなモデルの資源効率の高い設計目標と矛盾する。
外部監視よりもモデル内部の特徴を活用する新しい,効率的な2つのテストタイムスケーリング戦略を提案する。
論文 参考訳(メタデータ) (2025-10-03T23:49:06Z) - TAPS : Frustratingly Simple Test Time Active Learning for VLMs [0.0]
テスト時間最適化により、モデルはパラメータをオンザフライで更新することで、推論中に新しいデータに適応できる。
本研究では,不確実なサンプルを適応的にクエリし,動的に更新するテスト時アクティブラーニングフレームワークを提案する。
我々のフレームワークは、自律システムや医療診断などの安全クリティカルなアプリケーションに現実世界を配置するための実用的で効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-07-26T18:04:49Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Space Rotation with Basis Transformation for Training-free Test-Time Adaptation [25.408849667998993]
テスト時間適応のための基底変換を用いた訓練不要な特徴空間回転を提案する。
クラス間の固有の区別を利用することで、元の特徴空間を再構成し、それを新しい表現にマッピングする。
本手法は,性能と効率の両面で最先端技術より優れている。
論文 参考訳(メタデータ) (2025-02-27T10:15:34Z) - Realistic Test-Time Adaptation of Vision-Language Models [23.972884634610413]
VLM(Vision-Language Models)は、予測性能を改善するために広く活用されている。
トランスダクティブまたはテストタイム適応(TTA)に関する以前の研究は、しばしばデータ分布について強い仮定を下す。
私たちの作業は、これらの好ましいデプロイメントシナリオに挑戦し、より現実的な評価フレームワークを導入します。
論文 参考訳(メタデータ) (2025-01-07T12:17:25Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Efficient Open Set Single Image Test Time Adaptation of Vision Language Models [15.621092104244003]
動的で現実世界の環境にモデルを適応させることは、ディープラーニングにおける重要な課題である。
動的に更新された機能バンクを利用して信頼性の高いテストサンプルを識別する新しいフレームワークであるROSITAを提案する。
このアプローチは、未知のサンプルを拒絶しながら、既知のクラスに対するドメインシフトにモデルを効果的に適用する。
論文 参考訳(メタデータ) (2024-06-01T16:21:42Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。