論文の概要: Task Priors: Enhancing Model Evaluation by Considering the Entire Space of Downstream Tasks
- arxiv url: http://arxiv.org/abs/2507.09871v1
- Date: Mon, 14 Jul 2025 02:53:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.178892
- Title: Task Priors: Enhancing Model Evaluation by Considering the Entire Space of Downstream Tasks
- Title(参考訳): タスク優先:下流タスクの入射空間を考慮したモデル評価の強化
- Authors: Niket Patel, Randall Balestriero,
- Abstract要約: このような厳格な評価プロトコルは、AI研究においてサイレントボトルネックを生み出している、と我々は主張する。
このビューでは、すべてのダウンストリームタスクのセットに対してモデルのパフォーマンスを評価することができる。
- 参考スコア(独自算出の注目度): 13.412573082645096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The grand goal of AI research, and particularly Self Supervised Learning (SSL), is to produce systems that can successfully solve any possible task. In contrast, current evaluation methods available to AI researchers typically rely on a fixed collection of hand-picked downstream benchmarks. Hence, a large amount of effort is put into designing and searching for large collection of evaluation tasks that can serve as a proxy of our grand goal. We argue that such a rigid evaluation protocol creates a silent bottleneck in AI research. To remedy that, we define a probabilistic space of downstream tasks obtained by adopting a distribution of tasks and by defining Task Priors. Under this view, one can evaluate a model's performance over the set of all possible downstream tasks. Our framework is the first to provide answers to key questions such as (i) what is the average performance of my model over all possible downstream tasks weighted by the probability to encounter each task? or (ii) what is the variance of my model's performance across all downstream tasks under the defined Task Priors? Beyond establishing a new standard for evaluation, we believe that Task Priors will accelerate the pace of research in SSL - where downstream task evaluation is the sole qualitative signal that researchers have access to.
- Abstract(参考訳): AI研究、特に自己監督学習(SSL)の目標は、あらゆる可能なタスクをうまく解決できるシステムを作ることです。
対照的に、AI研究者が利用できる現在の評価方法は、通常、手書きの下流ベンチマークの固定されたコレクションに依存している。
したがって、我々の大目標のプロキシとして機能する大量の評価タスクの設計と探索に多大な労力が費やされる。
このような厳格な評価プロトコルは、AI研究において静かなボトルネックを生み出している、と我々は主張する。
そこで我々は,タスクの分散を取り入れ,タスク優先を定義することによって得られる下流タスクの確率空間を定義する。
このビューでは、すべてのダウンストリームタスクのセットに対してモデルのパフォーマンスを評価することができる。
私たちのフレームワークは,まず重要な質問に対する回答を提供するものです。
(i)各タスクに遭遇する確率で重み付けされたすべての下流タスクに対する私のモデルの平均性能は?
それとも
(ii) 定義されたタスク優先順位の下で、下流のすべてのタスクにまたがる私のモデルのパフォーマンスのばらつきは、どのようなものですか?
新たな評価基準の確立以外にも、タスクプライオリティはSSLにおける研究のペースを加速すると考えています。
関連論文リスト
- Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - Model Predictive Task Sampling for Efficient and Robust Adaptation [46.92143725900031]
本稿では,タスク空間と適応リスクランドスケープを橋渡しするフレームワークとして,モデル予測タスクサンプリング(MPTS)を紹介する。
MPTSは、エピソード最適化プロセスの特徴付けに生成モデルを使用し、後部推論によりタスク固有の適応リスクを予測する。
MPTSはゼロショット、少数ショット、教師付き微調整設定にシームレスに統合される。
論文 参考訳(メタデータ) (2025-01-19T13:14:53Z) - Class Incremental Learning via Likelihood Ratio Based Task Prediction [20.145128455767587]
新たな理論誘導アプローチは、タスクごとにタスク固有のモデルを、すべてのタスクに対して共有ネットワークでトレーニングすることである。
本稿では,従来のOOD検出器をタスクID予測に利用することは,追加情報を利用することができるため,最適ではないと主張している。
新手法をTPL (Task-id Prediction based on Likelihood Ratio) と呼ぶ。
強いCILベースラインを著しく上回り、破滅的な忘れがほとんどない。
論文 参考訳(メタデータ) (2023-09-26T16:25:57Z) - CrossCodeBench: Benchmarking Cross-Task Generalization of Source Code
Models [33.78307982736911]
クロスタスクの一般化は強力な研究と応用価値である。
既存の216のコード関連タスクを含む大規模ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-02-08T13:04:52Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Evaluating NLP Systems On a Novel Cloze Task: Judging the Plausibility
of Possible Fillers in Instructional Texts [2.3449131636069898]
Cloze Taskは、NLPシステムの言語理解能力を評価するために広く使われているタスクである。
新しいタスクが提案されている: クローズタスクのフィラーワードが良い、中立的、悪い候補であるかどうかを予測する。
論文 参考訳(メタデータ) (2021-12-03T12:02:52Z) - Exploring and Predicting Transferability across NLP Tasks [115.6278033699853]
本研究では,33のNLPタスク間の伝達可能性について検討した。
以上の結果から,転帰学習は従来考えられていたよりも有益であることが示唆された。
また,特定の対象タスクに対して最も転送可能なソースタスクを予測するために使用できるタスク埋め込みも開発した。
論文 参考訳(メタデータ) (2020-05-02T09:39:36Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。