論文の概要: Beyond Any-Shot Adaptation: Predicting Optimization Outcome for Robustness Gains without Extra Pay
- arxiv url: http://arxiv.org/abs/2501.11039v2
- Date: Mon, 10 Feb 2025 09:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:24:38.122605
- Title: Beyond Any-Shot Adaptation: Predicting Optimization Outcome for Robustness Gains without Extra Pay
- Title(参考訳): Any-Shot Adaptationを超えて: 余分な支払いなしでロバストなゲインの最適化結果を予測する
- Authors: Qi Cheems Wang, Zehao Xiao, Yixiu Mao, Yun Qu, Jiayi Shen, Yiqin Lv, Xiangyang Ji,
- Abstract要約: 本稿では,モデル予測タスクサンプリング(MPTS)を提案し,タスク空間と適応リスクランドスケープとの接続を確立する。
MPTSは、タスクエピソード情報を生成モデルで特徴付け、タスク固有の適応リスク値(タスク固有の適応リスク値)を後部推論から予測する。
MPTSはゼロショット、少数ショット、多ショットの学習パラダイムにシームレスに統合することができ、適応性の堅牢性を高め、余分なコストを伴わずに学習効率を維持する。
- 参考スコア(独自算出の注目度): 46.92143725900031
- License:
- Abstract: The foundation model enables fast problem-solving without learning from scratch, and such a desirable adaptation property benefits from its adopted cross-task generalization paradigms, e.g., pretraining, meta-training, and finetuning. Recent advances in these paradigms show the crucial role of challenging tasks' prioritized sampling in enhancing adaptation robustness and even improving sampling efficiency. However, scoring task difficulties exhausts massive task queries and requires intensive evaluation and computations, e.g., policy evaluations in Markov decision processes (MDPs) or inference with large backbone models. This work underscores the criticality of both adaptation robustness and learning efficiency, especially in scenarios where tasks are risky to collect or costly to evaluate. To this end, we present Model Predictive Task Sampling (MPTS) to establish connections between the task space and adaptation risk landscape for robust active task sampling. Technically, MPTS characterizes the task episodic information with a generative model and predicts optimization outcome, i.e., task-specific adaptation risk values, from posterior inference. The resulting risk learner amortizes expensive annotation, evaluation, or computation operations in task robust adaptation. Extensive experimental results show that MPTS can be seamlessly integrated into zero-shot, few-shot, and many-shot learning paradigms, increases adaptation robustness, and retains learning efficiency without affording extra cost. The code is available at the project site https://github.com/thu-rllab/MPTS.
- Abstract(参考訳): 基礎モデルは、スクラッチから学ぶことなく高速な問題解決を可能にし、これらの望ましい適応性は、採用されているクロスタスク一般化パラダイム(例えば、事前学習、メタトレーニング、微調整)から恩恵を受ける。
これらのパラダイムの最近の進歩は、適応ロバスト性を高め、サンプリング効率を向上する上で、課題優先サンプリングが重要な役割を担っていることを示している。
しかし、タスク評価の難しさは膨大なタスククエリを消費し、例えば、マルコフ決定プロセス(MDP)におけるポリシー評価や、大規模なバックボーンモデルによる推論など、集中的な評価と計算を必要とする。
この研究は、特にタスクの収集や評価にコストがかかるシナリオにおいて、適応の堅牢性と学習効率の両面での臨界性を強調します。
この目的のために,モデル予測タスクサンプリング(MPTS)を提案し,タスク空間と適応リスクランドスケープとの接続を確立する。
技術的には、MPTSは、タスクエピソード情報を生成モデルで特徴付け、タスク固有の適応リスク値、すなわち、後部推論から最適化結果を予測する。
得られたリスク学習者は、タスクロバスト適応における高価なアノテーション、評価、計算操作を償却する。
大規模な実験結果から,MPTSはゼロショット,少数ショット,多ショットの学習パラダイムにシームレスに統合でき,適応性を高め,余分なコストを伴わずに学習効率を維持できることがわかった。
コードはプロジェクトサイトhttps://github.com/thu-rllab/MPTSで公開されている。
関連論文リスト
- Robust Fast Adaptation from Adversarially Explicit Task Distribution Generation [45.568230152488276]
タスク識別子上に配置されたタスク分布を明示的に生成する。
我々は、敵の訓練から高速適応を強固にすることを提案する。
この研究は、特にメタラーニングにおけるタスク分散シフトを扱う際に、実践的な意味を持っている。
論文 参考訳(メタデータ) (2024-07-28T16:23:55Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Learning to generate imaginary tasks for improving generalization in
meta-learning [12.635773307074022]
既存のベンチマークにおけるメタ学習の成功は、メタトレーニングタスクの分布がメタテストタスクをカバーするという仮定に基づいて予測される。
最近のソリューションではメタトレーニングタスクの強化が追求されているが、正確なタスクと十分な想像上のタスクの両方を生成することは、まだ未解決の問題である。
本稿では,タスクアップサンプリングネットワークを通じてタスク表現からメタ学習タスクをアップサンプリングする手法を提案する。さらに,タスクアップサンプリング(ATU)と呼ばれるアプローチにより,タスクを最大化することで,最新のメタラーナーに最大限貢献できるタスクを生成する。
論文 参考訳(メタデータ) (2022-06-09T08:21:05Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。
AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。
本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文 参考訳(メタデータ) (2020-06-16T02:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。