論文の概要: Bandit Guided Submodular Curriculum for Adaptive Subset Selection
- arxiv url: http://arxiv.org/abs/2511.22944v1
- Date: Fri, 28 Nov 2025 07:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.806631
- Title: Bandit Guided Submodular Curriculum for Adaptive Subset Selection
- Title(参考訳): 適応サブセット選択のためのバンドガイド部分モジュラーカリキュラム
- Authors: Prateek Chanda, Prayas Agrawal, Saral Sureka, Lokesh Reddy Polu, Atharv Kshirsagar, Ganesh Ramakrishnan,
- Abstract要約: 従来のカリキュラム学習は、簡単なサンプルから難しいサンプルへと進むが、信頼性の高い難易度の概念は、いまだ解明されていない。
適応サブセット選択を再解釈し、各アームが標本選択を導く部分モジュラ関数に対応するマルチアームバンディット問題として定式化する。
OnLINESUBMODは、ユーティリティ駆動型報酬を最適化し、様々なサンプリング体制下でのノンレグレット性能を確実に達成する、新しいオンライングリージーポリシーである。
- 参考スコア(独自算出の注目度): 12.516248058768264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional curriculum learning proceeds from easy to hard samples, yet defining a reliable notion of difficulty remains elusive. Prior work has used submodular functions to induce difficulty scores in curriculum learning. We reinterpret adaptive subset selection and formulate it as a multi-armed bandit problem, where each arm corresponds to a submodular function guiding sample selection. We introduce ONLINESUBMOD, a novel online greedy policy that optimizes a utility-driven reward and provably achieves no-regret performance under various sampling regimes. Empirically, ONLINESUBMOD outperforms both traditional curriculum learning and bi-level optimization approaches across vision and language datasets, showing superior accuracy-efficiency tradeoffs. More broadly, we show that validationdriven reward metrics offer a principled way to guide the curriculum schedule.
- Abstract(参考訳): 従来のカリキュラム学習は、簡単なサンプルから難しいサンプルへと進むが、信頼性の高い難易度の概念は、いまだ解明されていない。
これまでの研究は、カリキュラム学習の難易度を誘導するために、サブモジュラー関数を使用してきた。
適応サブセット選択を再解釈し、各アームが標本選択を導く部分モジュラ関数に対応するマルチアームバンディット問題として定式化する。
OnLINESUBMODは、ユーティリティ駆動型報酬を最適化し、様々なサンプリング体制下でのノンレグレット性能を確実に達成する、新しいオンライングリージーポリシーである。
経験的に、ONLINESUBMODは、従来のカリキュラム学習と、視覚と言語データセット間の双方向最適化アプローチの両方より優れており、精度と効率のトレードオフが優れている。
より広範に、検証駆動報酬指標がカリキュラムのスケジュールをガイドする原則的な方法であることを示す。
関連論文リスト
- Teaching According to Talents! Instruction Tuning LLMs with Competence-Aware Curriculum Learning [64.92967672226534]
本稿では,CAMPUS と呼ばれるコンピテンス・アウェア・マルチパースペクティブ cUrriculum instruction のチューニングフレームワークを提案する。
CAMPUSには、サブカリキュラムの動的選択、カリキュラムスケジュールの能力を考慮した調整、複数の困難ベースのスケジューリングなど、いくつかの利点がある。
論文 参考訳(メタデータ) (2025-09-17T07:58:59Z) - Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。
本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文 参考訳(メタデータ) (2025-07-13T19:36:17Z) - The Power of Adaptation: Boosting In-Context Learning through Adaptive Prompting [8.260097638532878]
大規模言語モデル(LLM)は、幅広い言語関連タスクで例外的な能力を示している。
モデルフィードバックを活用することで,見本を適応的に選択する新しい手法であるtextscAdaptive-Promptを提案する。
実験の結果,textscAdaptive-Promptは様々な推論タスクにおけるLLM性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-12-23T15:49:43Z) - Sub-SA: Strengthen In-context Learning via Submodular Selective Annotation [4.846839863393725]
サブモジュールに基づく選択的アノテーション法であるSub-SA(Submodular Selective )を提案する。
Sub-SAの目的は、アノテーションのコストを削減しつつ、コンテキスト内サンプルの品質を向上させることである。
また、ラベルなしデータセットの多様性と代表性のバランスを改善するために、RPR(Reward and Penalty Regularization)を提案する。
論文 参考訳(メタデータ) (2024-07-08T07:47:30Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Progressive Multi-Stage Learning for Discriminative Tracking [25.94944743206374]
本稿では,頑健な視覚追跡のためのサンプル選択の段階的多段階最適化ポリシを用いた共同識別学習手法を提案する。
提案手法は, 時間重み付き, 検出誘導型セルフペースト学習戦略により, 簡単なサンプル選択を行う。
ベンチマークデータセットの実験では、提案した学習フレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2020-04-01T07:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。