論文の概要: Demonstration Selection for In-Context Learning via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.03966v1
- Date: Thu, 05 Dec 2024 08:33:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:42:39.613611
- Title: Demonstration Selection for In-Context Learning via Reinforcement Learning
- Title(参考訳): 強化学習による文脈内学習のための実証的選択
- Authors: Xubin Wang, Jianfei Wu, Yichen Yuan, Mingzhe Li, Deyu Cai, Weijia Jia,
- Abstract要約: Relevance-Diversity Enhanced Selection (RDES)は、テキスト分類タスクにおける多様な参照デモの選択を最適化するための革新的なアプローチである。
RDESはQラーニングフレームワークを使用して、多様性と分類目標との関連性を最大化するデモを動的に識別する。
RDESは,確立された10のベースラインと比較して,分類精度を著しく向上することを示した。
- 参考スコア(独自算出の注目度): 16.103533806505403
- License:
- Abstract: Diversity in demonstration selection is crucial for enhancing model generalization, as it enables a broader coverage of structures and concepts. However, constructing an appropriate set of demonstrations has remained a focal point of research. This paper presents the Relevance-Diversity Enhanced Selection (RDES), an innovative approach that leverages reinforcement learning to optimize the selection of diverse reference demonstrations for text classification tasks using Large Language Models (LLMs), especially in few-shot prompting scenarios. RDES employs a Q-learning framework to dynamically identify demonstrations that maximize both diversity and relevance to the classification objective by calculating a diversity score based on label distribution among selected demonstrations. This method ensures a balanced representation of reference data, leading to improved classification accuracy. Through extensive experiments on four benchmark datasets and involving 12 closed-source and open-source LLMs, we demonstrate that RDES significantly enhances classification accuracy compared to ten established baselines. Furthermore, we investigate the incorporation of Chain-of-Thought (CoT) reasoning in the reasoning process, which further enhances the model's predictive performance. The results underscore the potential of reinforcement learning to facilitate adaptive demonstration selection and deepen the understanding of classification challenges.
- Abstract(参考訳): デモ選択の多様性は、構造や概念の広範なカバレッジを可能にするため、モデル一般化の強化に不可欠である。
しかし、適切なデモセットを構築することは研究の焦点となっている。
本稿では,Relevance-Diversity Enhanced Selection (RDES)を提案する。この手法は強化学習を利用して,大規模言語モデル(LLM)を用いたテキスト分類タスクにおける多様な参照デモンストレーションの選択を最適化する。
RDESはQラーニングフレームワークを用いて、選択されたデモンストレーションのラベル分布に基づいて多様性スコアを計算することにより、分類目的に対する多様性と妥当性の両方を最大化するデモを動的に識別する。
この方法では、参照データのバランスの取れた表現が保証され、分類精度が向上する。
4つのベンチマークデータセットに関する広範な実験と、12のクローズドソースおよびオープンソースLCMによる実験により、RDESは、確立された10のベースラインと比較して、分類精度を大幅に向上することを示した。
さらに、推論過程におけるチェーン・オブ・ソート(CoT)推論の組み入れについて検討し、モデルの予測性能をさらに向上させる。
その結果、適応的な実証選択を促進し、分類課題の理解を深めるための強化学習の可能性を強調した。
関連論文リスト
- Affinity and Diversity: A Unified Metric for Demonstration Selection via Internal Representations [2.4866936275046405]
我々は、ICLモデルの内部表現を活用する統一されたメートル法-親和性と多様性-を提案する。
実験の結果,親和性と多様性は試験精度と強く相関し,実演選択の有効性が示唆された。
論文 参考訳(メタデータ) (2025-02-20T09:12:51Z) - DEUCE: Dual-diversity Enhancement and Uncertainty-awareness for Cold-start Active Learning [54.35107462768146]
コールドスタートアクティブラーニング(CSAL)は、手動アノテーションのためのラベルなしデータセットから貴重なインスタンスを選択する。
既存のCSAL手法は、弱いクラスと強い代表例を見落とし、バイアス学習をもたらす。
本稿ではCSALのための新しい二変量拡張および不確実性認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-01T04:00:03Z) - Investigating the Impact of Data Selection Strategies on Language Model Performance [1.0013553984400492]
本研究では,異なるデータ選択手法と特徴型がモデル性能に与える影響について検討する。
我々は,データサブセットの選択が下流タスクに影響を及ぼすか,n-gram特徴が目標分布との整合性を改善するか,埋め込み型ニューラルネットワーク特徴が相補的な利点をもたらすかを評価する。
論文 参考訳(メタデータ) (2025-01-07T14:38:49Z) - Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。
適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文 参考訳(メタデータ) (2024-11-23T02:34:33Z) - Effective Data Selection for Seismic Interpretation through Disagreement [14.11559987180237]
新たなデータ選択フレームワークの開発は、地震解釈の確立した実践にインスパイアされている。
我々は提案したフレームワークの具体的実装を提供し、それをATLASと名づけた。
以上の結果より,ATLASは平均交叉結合率を最大12%向上させることが明らかとなった。
論文 参考訳(メタデータ) (2024-06-01T20:06:48Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Attitudes and Latent Class Choice Models using Machine learning [0.0]
LCCM (Latent Class Choice Models) の仕様において, 位置インジケータを効率的に組み込む手法を提案する。
この定式化は、位置指標と決定選択との関係を探索する能力において構造方程式を克服する。
我々は,デンマークのコペンハーゲンから,カーシェアリング(Car-Sharing, CS)サービスサブスクリプションの選択を推定するためのフレームワークをテストした。
論文 参考訳(メタデータ) (2023-02-20T10:03:01Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。