論文の概要: Selecting Demonstrations for Many-Shot In-Context Learning via Gradient Matching
- arxiv url: http://arxiv.org/abs/2506.04579v1
- Date: Thu, 05 Jun 2025 02:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.50146
- Title: Selecting Demonstrations for Many-Shot In-Context Learning via Gradient Matching
- Title(参考訳): グラディエントマッチングによるマルチショットインコンテクスト学習のためのデモ選択
- Authors: Jianfei Zhang, Bei Li, Jun Bai, Rumei Li, Yanmeng Wang, Chenghua Lin, Wenge Rong,
- Abstract要約: In-Context Learning (ICL) は大規模言語モデル (LLM) を活用し, 微調整を伴わない迅速なタスク適応を実現する
マルチショットICLは、スケールされた実演を通して有望な性能を示すが、マルチショット実演の選択方法は、既存の作業におけるランダムな選択に限られている。
そこで本研究では,対象課題のトレーニングセット全体と選択された事例間の微調整勾配を整列させて,実演を選択する新しい勾配マッチング手法を提案し,選択された例内のトレーニングセット全体に対する学習効果にアプローチする。
- 参考スコア(独自算出の注目度): 24.4195026869735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-Context Learning (ICL) empowers Large Language Models (LLMs) for rapid task adaptation without Fine-Tuning (FT), but its reliance on demonstration selection remains a critical challenge. While many-shot ICL shows promising performance through scaled demonstrations, the selection method for many-shot demonstrations remains limited to random selection in existing work. Since the conventional instance-level retrieval is not suitable for many-shot scenarios, we hypothesize that the data requirements for in-context learning and fine-tuning are analogous. To this end, we introduce a novel gradient matching approach that selects demonstrations by aligning fine-tuning gradients between the entire training set of the target task and the selected examples, so as to approach the learning effect on the entire training set within the selected examples. Through gradient matching on relatively small models, e.g., Qwen2.5-3B or Llama3-8B, our method consistently outperforms random selection on larger LLMs from 4-shot to 128-shot scenarios across 9 diverse datasets. For instance, it surpasses random selection by 4% on Qwen2.5-72B and Llama3-70B, and by around 2% on 5 closed-source LLMs. This work unlocks more reliable and effective many-shot ICL, paving the way for its broader application.
- Abstract(参考訳): In-Context Learning (ICL) は大規模言語モデル(LLM)をFTなしで高速なタスク適応に活用するが、実演選択への依存は依然として重要な課題である。
マルチショットICLは、スケールされた実演を通して有望な性能を示すが、マルチショット実演の選択方法は、既存の作業におけるランダムな選択に限られている。
従来のインスタンスレベルの検索は多数のシナリオには適さないため,テキスト内学習や微調整におけるデータ要求は類似している,という仮説を立てる。
そこで本研究では,対象タスクのトレーニングセット全体と選択されたサンプル間の微調整勾配を整列させて,デモを選択する,新しい勾配マッチング手法を提案し,選択した例内のトレーニングセット全体に対する学習効果にアプローチする。
比較的小さなモデル(例えば Qwen2.5-3B や Llama3-8B など)の勾配マッチングにより,9つの異なるデータセットの4ショットから128ショットのシナリオにおいて,LLM のランダム選択を常に上回っている。
例えば、Qwen2.5-72B と Llama3-70B でランダム選択を4%、そして5つのクローズドソース LLM で約2% 上回っている。
この作業により、より信頼性が高く効果的なマルチショットICLが開かれ、より広範なアプリケーションへの道が開かれた。
関連論文リスト
- ParaICL: Towards Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - In-Context Learning with Iterative Demonstration Selection [32.62104857810135]
大規模言語モデル (LLMs) は、文脈内学習 (ICL) を介して強力な数ショット学習能力を示した。
ICLの性能は、数発のデモの選択に非常に敏感であることが示されている。
両次元のメリットを活用するために,反復デモ選択(IDS)を提案する。
論文 参考訳(メタデータ) (2023-10-15T16:40:19Z) - In-Context Demonstration Selection with Cross Entropy Difference [95.21947716378641]
大規模言語モデル(LLM)は、ゼロショットタスクのパフォーマンスを改善するためにコンテキスト内デモを使用することができる。
テキスト内デモを選択するためのクロスエントロピー差分法(CED)を提案する。
論文 参考訳(メタデータ) (2023-05-24T05:04:00Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - True Few-Shot Learning with Language Models [78.42578316883271]
ホールドアウト例が利用できない場合, LMの少数ショット能力を評価する。
以上の結果から,先行研究はLMの真少ショット能力を大幅に過大評価していたことが示唆された。
論文 参考訳(メタデータ) (2021-05-24T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。