論文の概要: Towards Compute-Optimal Many-Shot In-Context Learning
- arxiv url: http://arxiv.org/abs/2507.16217v1
- Date: Tue, 22 Jul 2025 04:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.959442
- Title: Towards Compute-Optimal Many-Shot In-Context Learning
- Title(参考訳): マルチショットインコンテクスト学習に向けて
- Authors: Shahriar Golchin, Yanfei Chen, Rujun Han, Manan Gandhi, Tianli Yu, Swaroop Mishra, Mihai Surdeanu, Rishabh Agarwal, Chen-Yu Lee, Tomas Pfister,
- Abstract要約: マルチショットICLにおけるデモ選択のための2つの戦略を提案する。
最初の方法は、テストサンプルの類似性に基づいて選択された少数のデモと、キャッシュされるランダムなデモの集合を組み合わせる。
第2の戦略は、ランダムなデモをk平均クラスタリングによるテストサンプル表現から選択したセントロイドに置き換えることによって、第1の戦略を改善する。
- 参考スコア(独自算出の注目度): 63.815463719071055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context large language models (LLMs) are able to process inputs containing up to several million tokens. In the scope of in-context learning (ICL), this translates into using hundreds/thousands of demonstrations in the input prompt, enabling many-shot ICL. In practice, a fixed set of demonstrations is often selected at random in many-shot settings due to (1) high inference costs, (2) the benefits of caching and reusing computations, and (3) the similar performance offered by this strategy compared to others when scaled. In this work, we propose two straightforward strategies for demonstration selection in many-shot ICL that improve performance with minimal computational overhead. Our first method combines a small number of demonstrations, selected based on their similarity to each test sample, with a disproportionately larger set of random demonstrations that are cached. The second strategy improves the first by replacing random demonstrations with those selected using centroids derived from test sample representations via k-means clustering. Our experiments with Gemini Pro and Flash across several datasets indicate that our strategies consistently outperform random selection and surpass or match the most performant selection approach while supporting caching and reducing inference cost by up to an order of magnitude. We also show that adjusting the proportion of demonstrations selected based on different criteria can balance performance and inference cost in many-shot ICL.
- Abstract(参考訳): LLM(Long-context Large Language Model)は、数百万のトークンを含む入力を処理することができる。
In-context Learning (ICL) の分野では、インプットプロンプトで数百/千のデモを使用するようになり、多数のショットICLが可能になった。
実際には、(1)高い推論コスト、(2)キャッシングと再利用の利点、(3)スケールする際の他の方法と比べても同様のパフォーマンスのため、多数のショット設定で固定されたデモセットがランダムに選択されることが多い。
本研究では,マルチショットICLにおける実演選択のための2つの簡単な戦略を提案し,計算オーバーヘッドを最小限に抑えて性能を向上させる。
最初の方法は,各テストサンプルと類似性に基づいて選択された少数のデモと,キャッシュされるランダムなデモの集合とを組み合わせる。
第2の戦略は、ランダムなデモをk平均クラスタリングによるテストサンプル表現から選択したセントロイドに置き換えることによって、第1の戦略を改善する。
Gemini ProとFlashによるいくつかのデータセットによる実験は、我々の戦略がランダム選択を一貫して上回り、キャッシングをサポートし、推論コストを最大1桁まで削減しながら、最もパフォーマンスの高い選択アプローチに匹敵するか、一致しているかを示している。
また、異なる基準に基づいて選択されたデモの割合を調整することで、多視点ICLの性能と推論コストのバランスがとれることを示した。
関連論文リスト
- Large Language Models are Demonstration Pre-Selectors for Themselves [57.101804269100185]
大規模言語モデル(LLM)を備えたインコンテキスト学習(ICL)は、トレーニングデータ全体から数ショットのデモを選択することで、強力な数ショットのパフォーマンスを提供する。
FEw yet Essential Demonstration prE-selectoRは、デモの代表的なサブセットを特定する新しい事前選択フレームワークである。
FEwでもEssential Demonstration prE-selectoRは、パフォーマンスを維持しながら、トレーニングデータのサイズを20%以上削減できる。
論文 参考訳(メタデータ) (2025-06-06T12:29:03Z) - Selecting Demonstrations for Many-Shot In-Context Learning via Gradient Matching [24.4195026869735]
In-Context Learning (ICL) は大規模言語モデル (LLM) を活用し, 微調整を伴わない迅速なタスク適応を実現する
マルチショットICLは、スケールされた実演を通して有望な性能を示すが、マルチショット実演の選択方法は、既存の作業におけるランダムな選択に限られている。
そこで本研究では,対象課題のトレーニングセット全体と選択された事例間の微調整勾配を整列させて,実演を選択する新しい勾配マッチング手法を提案し,選択された例内のトレーニングセット全体に対する学習効果にアプローチする。
論文 参考訳(メタデータ) (2025-06-05T02:57:05Z) - ParaICL: Towards Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - $Se^2$: Sequential Example Selection for In-Context Learning [83.17038582333716]
インコンテキスト学習(ICL)のための大規模言語モデル(LLM)は、実演例によって起動する必要がある。
以前の研究は、主に"select then organize"パラダイムに従って、ICLの例の選択を幅広く検討してきた。
本稿では,この問題を$Se$quential $Se$lection問題として定式化し,シーケンシャル・アウェア法である$Se2$を導入する。
論文 参考訳(メタデータ) (2024-02-21T15:35:04Z) - In-Context Learning with Iterative Demonstration Selection [32.62104857810135]
大規模言語モデル (LLMs) は、文脈内学習 (ICL) を介して強力な数ショット学習能力を示した。
ICLの性能は、数発のデモの選択に非常に敏感であることが示されている。
両次元のメリットを活用するために,反復デモ選択(IDS)を提案する。
論文 参考訳(メタデータ) (2023-10-15T16:40:19Z) - In-Context Demonstration Selection with Cross Entropy Difference [95.21947716378641]
大規模言語モデル(LLM)は、ゼロショットタスクのパフォーマンスを改善するためにコンテキスト内デモを使用することができる。
テキスト内デモを選択するためのクロスエントロピー差分法(CED)を提案する。
論文 参考訳(メタデータ) (2023-05-24T05:04:00Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。