論文の概要: Demonstration Selection for In-Context Learning via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.03966v2
- Date: Sat, 24 May 2025 14:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:53.002168
- Title: Demonstration Selection for In-Context Learning via Reinforcement Learning
- Title(参考訳): 強化学習による文脈内学習のための実証的選択
- Authors: Xubin Wang, Jianfei Wu, Yichen Yuan, Deyu Cai, Mingzhe Li, Weijia Jia,
- Abstract要約: Relevance-Diversity Enhanced Selection (RDES)は、多様な参照デモの選択を最適化するための革新的なアプローチである。
RDESはQ-learningのようなフレームワークとPPOベースの変種を使用して、多様性を最大化するデモを動的に識別する。
RDESは10基のベースラインに比べて性能を著しく向上することを示した。
- 参考スコア(独自算出の注目度): 16.103533806505403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diversity in demonstration selection is critical for enhancing model generalization by enabling broader coverage of structures and concepts. Constructing appropriate demonstration sets remains a key research challenge. This paper introduces the Relevance-Diversity Enhanced Selection (RDES), an innovative approach that leverages reinforcement learning (RL) frameworks to optimize the selection of diverse reference demonstrations for tasks amenable to in-context learning (ICL), particularly text classification and reasoning, in few-shot prompting scenarios. RDES employs frameworks like Q-learning and a PPO-based variant to dynamically identify demonstrations that maximize both diversity (quantified by label distribution) and relevance to the task objective. This strategy ensures a balanced representation of reference data, leading to improved accuracy and generalization. Through extensive experiments on multiple benchmark datasets, including diverse reasoning tasks, and involving 14 closed-source and open-source LLMs, we demonstrate that RDES significantly enhances performance compared to ten established baselines. Our evaluation includes analysis of performance across varying numbers of demonstrations on selected datasets. Furthermore, we investigate incorporating Chain-of-Thought (CoT) reasoning, which further boosts predictive performance. The results highlight the potential of RL for adaptive demonstration selection and addressing challenges in ICL.
- Abstract(参考訳): 実演選択の多様性は、構造や概念の広範なカバレッジを可能にすることによって、モデル一般化の促進に不可欠である。
適切なデモセットを構築することは、依然として重要な研究課題である。
本稿では、Relevance-Diversity Enhanced Selection(RDES)という、強化学習(RL)フレームワークを活用する革新的な手法を導入し、テキスト分類や推論などにおいて、文脈内学習(ICL)に適したタスクに対する多様な参照デモンストレーションの選択を最適化する。
RDESはQラーニング(Q-learning)やPPOベースの変種(PPO-based variant)といったフレームワークを使用して、多様性(ラベルの分布で表される)とタスクの目的との関係の両方を最大化するデモを動的に識別する。
この戦略により、参照データのバランスの取れた表現が保証され、精度と一般化が向上する。
多様な推論タスクや14のクローズドソースおよびオープンソースLCMを含む複数のベンチマークデータセットに関する広範な実験を通じて、RDESは10の確立されたベースラインと比較して性能を著しく向上することを示した。
評価には、選択したデータセット上での様々な数の実演のパフォーマンスの分析が含まれる。
さらに、予測性能をさらに向上させる、CoT推論の導入についても検討する。
その結果、ICLにおける適応的な実演選択と対処課題に対するRLの可能性が浮き彫りになった。
関連論文リスト
- Your Language Model May Think Too Rigidly: Achieving Reasoning Consistency with Symmetry-Enhanced Training [66.48331530995786]
我々は、文脈から有用な情報を抽出する能力を向上させるデータ中心のアプローチであるsyMmetry-ENhanceD (MEND) Data Augmentationを提案する。
推論連鎖の増大を強調する既存の手法とは異なり,本手法は知識抽出段階におけるモデルロバスト性を向上させる。
論理的および算術的推論タスクの実験は、MENDが様々なクエリのバリエーションで推論性能を向上させることを示している。
論文 参考訳(メタデータ) (2025-02-25T03:03:35Z) - Affinity and Diversity: A Unified Metric for Demonstration Selection via Internal Representations [2.4866936275046405]
我々は、ICLモデルの内部表現を活用する統一されたメートル法-親和性と多様性-を提案する。
実験の結果,親和性と多様性は試験精度と強く相関し,実演選択の有効性が示唆された。
論文 参考訳(メタデータ) (2025-02-20T09:12:51Z) - Investigating the Impact of Data Selection Strategies on Language Model Performance [1.0013553984400492]
本研究では,異なるデータ選択手法と特徴型がモデル性能に与える影響について検討する。
我々は,データサブセットの選択が下流タスクに影響を及ぼすか,n-gram特徴が目標分布との整合性を改善するか,埋め込み型ニューラルネットワーク特徴が相補的な利点をもたらすかを評価する。
論文 参考訳(メタデータ) (2025-01-07T14:38:49Z) - Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。
適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文 参考訳(メタデータ) (2024-11-23T02:34:33Z) - Effective Data Selection for Seismic Interpretation through Disagreement [14.11559987180237]
新たなデータ選択フレームワークの開発は、地震解釈の確立した実践にインスパイアされている。
我々は提案したフレームワークの具体的実装を提供し、それをATLASと名づけた。
以上の結果より,ATLASは平均交叉結合率を最大12%向上させることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-01T20:06:48Z) - Leveraging vision-language models for fair facial attribute classification [19.93324644519412]
汎用視覚言語モデル(英: General-purpose Vision-Language Model, VLM)は、共通感性属性のための豊富な知識源である。
我々は,VLM予測値と人間定義属性分布の対応関係を解析した。
複数のベンチマークの顔属性分類データセットの実験は、既存の教師なしベースラインよりもモデルの公平性の向上を示している。
論文 参考訳(メタデータ) (2024-03-15T18:37:15Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Attitudes and Latent Class Choice Models using Machine learning [0.0]
LCCM (Latent Class Choice Models) の仕様において, 位置インジケータを効率的に組み込む手法を提案する。
この定式化は、位置指標と決定選択との関係を探索する能力において構造方程式を克服する。
我々は,デンマークのコペンハーゲンから,カーシェアリング(Car-Sharing, CS)サービスサブスクリプションの選択を推定するためのフレームワークをテストした。
論文 参考訳(メタデータ) (2023-02-20T10:03:01Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。