論文の概要: Optimistic Task Inference for Behavior Foundation Models
- arxiv url: http://arxiv.org/abs/2510.20264v1
- Date: Thu, 23 Oct 2025 06:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.453471
- Title: Optimistic Task Inference for Behavior Foundation Models
- Title(参考訳): 行動基礎モデルに対する最適タスク推論
- Authors: Thomas Rupf, Marco Bagatella, Marin Vlastelica, Andreas Krause,
- Abstract要約: OpTI-BFMは、タスク推論のためのデータ収集においてBFMを導く楽観的な決定基準である。
我々は、確立されたゼロショットベンチマーク上でOPTI-BFMを評価し、後継機能ベースのBFMが未知の報酬関数を識別し、最適化することができることを観察した。
- 参考スコア(独自算出の注目度): 36.02038435371954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavior Foundation Models (BFMs) are capable of retrieving high-performing policy for any reward function specified directly at test-time, commonly referred to as zero-shot reinforcement learning (RL). While this is a very efficient process in terms of compute, it can be less so in terms of data: as a standard assumption, BFMs require computing rewards over a non-negligible inference dataset, assuming either access to a functional form of rewards, or significant labeling efforts. To alleviate these limitations, we tackle the problem of task inference purely through interaction with the environment at test-time. We propose OpTI-BFM, an optimistic decision criterion that directly models uncertainty over reward functions and guides BFMs in data collection for task inference. Formally, we provide a regret bound for well-trained BFMs through a direct connection to upper-confidence algorithms for linear bandits. Empirically, we evaluate OpTI-BFM on established zero-shot benchmarks, and observe that it enables successor-features-based BFMs to identify and optimize an unseen reward function in a handful of episodes with minimal compute overhead. Code is available at https://github.com/ThomasRupf/opti-bfm.
- Abstract(参考訳): 行動基礎モデル(BFM)は、テスト時に直接指定された報酬関数(一般にゼロショット強化学習(英語版) (RL) と呼ばれる)に対して高いパフォーマンスのポリシーを取得することができる。
標準的な仮定として、BFMは、機能的な報酬の形式にアクセスするか、重要なラベル付けの取り組みにアクセスできると仮定して、無視できない推論データセットよりも計算上の報酬を必要とする。
これらの制限を緩和するため、テスト時に環境との相互作用を通じてタスク推論の問題を純粋に解決する。
本稿では,報酬関数に対する不確実性を直接モデル化し,タスク推論のためのデータ収集においてBFMを誘導する楽観的な決定基準であるOpTI-BFMを提案する。
形式的には、線形バンディットに対する高信頼アルゴリズムに直接接続することで、よく訓練されたBFMに対する後悔の束縛を与える。
実験により、確立されたゼロショットベンチマーク上でOPTI-BFMを評価し、後継機能ベースのBFMが、計算オーバーヘッドが最小限である少数のエピソードにおいて、見当たらない報酬関数を識別し、最適化できることを示した。
コードはhttps://github.com/ThomasRupf/opti-bfm.comで入手できる。
関連論文リスト
- Backpropagation-Free Test-Time Adaptation via Probabilistic Gaussian Alignment [16.352863226512984]
テスト時間適応(TTA)は、推論中にラベルのないテストデータを活用することにより、分散シフト下でのゼロショットロバスト性を高める。
ほとんどのメソッドは、スケーラビリティを制限し、リアルタイムデプロイメントを妨げるバックプロパゲーションや反復最適化に依存しています。
本稿では,Advanced Distribution-AwareとBack propagation-free Test-time Adapting法であるADAPTを提案する。
論文 参考訳(メタデータ) (2025-08-21T13:42:49Z) - Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文 参考訳(メタデータ) (2025-05-26T17:44:08Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。
本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Mutual-Information Based Few-Shot Classification [34.95314059362982]
数ショット学習のためのTIM(Transductive Infomation Maximization)を提案する。
提案手法は,与えられた数発のタスクに対して,クエリ特徴とラベル予測との相互情報を最大化する。
そこで我々は,勾配に基づく最適化よりもトランスダクティブ推論を高速化する交代方向解法を提案する。
論文 参考訳(メタデータ) (2021-06-23T09:17:23Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。