論文の概要: Model Predictive Task Sampling for Efficient and Robust Adaptation
- arxiv url: http://arxiv.org/abs/2501.11039v5
- Date: Mon, 24 Mar 2025 12:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 16:32:16.430763
- Title: Model Predictive Task Sampling for Efficient and Robust Adaptation
- Title(参考訳): 効率的なロバスト適応のためのモデル予測タスクサンプリング
- Authors: Qi Cheems Wang, Zehao Xiao, Yixiu Mao, Yun Qu, Jiayi Shen, Yiqin Lv, Xiangyang Ji,
- Abstract要約: 本稿では,タスク空間と適応リスクランドスケープを橋渡しするフレームワークとして,モデル予測タスクサンプリング(MPTS)を紹介する。
MPTSは、エピソード最適化プロセスの特徴付けに生成モデルを使用し、後部推論によりタスク固有の適応リスクを予測する。
MPTSはゼロショット、少数ショット、教師付き微調整設定にシームレスに統合される。
- 参考スコア(独自算出の注目度): 46.92143725900031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have revolutionized general-purpose problem-solving, offering rapid task adaptation through pretraining, meta-training, and finetuning. Recent crucial advances in these paradigms reveal the importance of challenging task prioritized sampling to enhance adaptation robustness under distribution shifts. However, ranking task difficulties over iteration as a preliminary step typically requires exhaustive task evaluation, which is practically unaffordable in computation and data-annotation. This study provides a novel perspective to illuminate the possibility of leveraging the dual importance of adaptation robustness and learning efficiency, particularly in scenarios where task evaluation is risky or costly, such as iterative agent-environment interactions for robotic policy evaluation or computationally intensive inference steps for finetuning foundation models. Firstly, we introduce Model Predictive Task Sampling (MPTS), a framework that bridges the task space and adaptation risk landscape, providing a theoretical foundation for robust active task sampling. MPTS employs a generative model to characterize the episodic optimization process and predicts task-specific adaptation risk via posterior inference. The resulting risk learner amortizes the costly evaluation of task adaptation performance and provably approximates task difficulty rankings. MPTS seamlessly integrates into zero-shot, few-shot, and supervised finetuning settings. Empirically, we conduct extensive experiments in pattern recognition using foundation models and sequential decision-making. Our results demonstrate that MPTS significantly enhances adaptation robustness for tail or out-of-distribution (OOD) tasks and improves learning efficiency compared to state-of-the-art (SOTA) methods. The code is available at the project site https://github.com/thu-rllab/MPTS.
- Abstract(参考訳): ファンデーションモデルは汎用的な問題解決に革命をもたらし、事前訓練、メタトレーニング、微調整による迅速なタスク適応を提供する。
これらのパラダイムの最近の重要な進歩は、分散シフト下での適応堅牢性を高めるために、課題優先サンプリングが重要であることを示している。
しかし、予備的なステップとしてイテレーションよりもタスクのランク付けが難しい場合は、計算やデータアノテーションでは事実上不十分な、徹底的なタスク評価が必要となるのが一般的である。
本研究は, ロボット政策評価における反復的エージェント環境相互作用や, 基礎モデルを微調整するための計算集約推論ステップなど, タスク評価が危険あるいはコストのかかるシナリオにおいて, 適応堅牢性と学習効率の両立を両立させる可能性を明らかにする新しい視点を提供する。
まず,タスク空間と適応リスク景観を橋渡しするフレームワークであるモデル予測タスクサンプリング(MPTS)を導入し,堅牢なアクティブタスクサンプリングの理論的基盤を提供する。
MPTSは、エピソード最適化プロセスの特徴付けに生成モデルを使用し、後部推論によりタスク固有の適応リスクを予測する。
得られたリスク学習者は、タスク適応性能のコスト評価を補正し、タスク難易度ランキングを確実に近似する。
MPTSはゼロショット、少数ショット、教師付き微調整設定にシームレスに統合される。
実験では,基礎モデルと逐次的意思決定を用いたパターン認識実験を行った。
以上の結果から,MPTSは尾部タスクやアウト・オブ・ディストリビューション(OOD)タスクの適応性を大幅に向上し,最先端(SOTA)手法と比較して学習効率が向上することが示唆された。
コードはプロジェクトサイトhttps://github.com/thu-rllab/MPTSで公開されている。
関連論文リスト
- Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments [78.15330971155778]
Posterior and Diversity Synergized Task Smpling (PDTS) は、高速かつ堅牢なシーケンシャルな意思決定を実現するための、実装が容易な方法である。
PDTSは、堅牢なアクティブタスクサンプリングの可能性を解き、挑戦的なタスクにおけるゼロショットおよび少数ショット適応ロバスト性を大幅に改善し、特定のシナリオ下での学習プロセスを加速する。
論文 参考訳(メタデータ) (2025-04-27T07:27:17Z) - Multi-Fidelity Bayesian Optimization With Across-Task Transferable Max-Value Entropy Search [36.14499894307206]
本稿では,現在のタスクに関する情報を取得する必要性と,将来的なタスクに伝達可能な情報を集めることのバランスをとる新しい情報理論獲得機能を提案する。
提案手法は,十分なタスク数を処理すると,最適化効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-03-14T17:00:01Z) - Adaptive scheduling for adaptive sampling in POS taggers construction [0.27624021966289597]
音声タグ作成における機械学習の新たな手法として適応的サンプリングのための適応的スケジューリングを提案する。
本研究では,関数モデルとともに幾何学的に学習曲線の形状を分析し,任意のタイミングで学習曲線を増減する。
また,評価の一時的なインフレーションを受けるトレーニングデータベースの領域に注意を払い,サンプリングの堅牢性も向上する。
論文 参考訳(メタデータ) (2024-02-04T15:02:17Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Meta-learning with an Adaptive Task Scheduler [93.63502984214918]
既存のメタ学習アルゴリズムは、一様確率でランダムにメタトレーニングタスクをサンプリングする。
タスクは、限られた数のメタトレーニングタスクを考えると、ノイズや不均衡に有害である可能性が高い。
メタトレーニングプロセスのための適応タスクスケジューラ(ATS)を提案する。
論文 参考訳(メタデータ) (2021-10-26T22:16:35Z) - Robust MAML: Prioritization task buffer with adaptive learning process
for model-agnostic meta-learning [15.894925018423665]
モデル非依存メタラーニング(MAML)は、最先端のメタラーニングアルゴリズムである。
本稿では適応型学習方式と優先順位付けタスクバッファに基づくより堅牢なMAMLを提案する。
メタ強化学習環境の実験結果は、実質的なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2021-03-15T09:34:34Z) - Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。
AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。
本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文 参考訳(メタデータ) (2020-06-16T02:21:49Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。