論文の概要: When Dynamics Shift, Robust Task Inference Wins: Offline Imitation Learning with Behavior Foundation Models Revisited
- arxiv url: http://arxiv.org/abs/2605.17017v1
- Date: Sat, 16 May 2026 14:33:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.492112
- Title: When Dynamics Shift, Robust Task Inference Wins: Offline Imitation Learning with Behavior Foundation Models Revisited
- Title(参考訳): ダイナミクスシフト時,ロバストなタスク推論:行動基礎モデルを再考したオフライン模倣学習
- Authors: Rishabh Agrawal, Rahul Jain, Ashutosh Nayyar,
- Abstract要約: 我々は、BFMタスク推論をロバストなミニマックス最適化問題として定式化する。
これは、動的シフトに対する堅牢性を達成する最初のBFMベースのフレームワークである。
結果は、堅牢なポリシーはタスク推論時に完全に達成できることを示した。
- 参考スコア(独自算出の注目度): 9.403334073411722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavior Foundation Models (BFMs) enable scalable imitation learning (IL) by pretraining task-agnostic representations that can be rapidly adapted to new tasks. However, existing BFMs assume fixed environment dynamics, limiting their robustness under real-world shifts such as changes in friction, actuation, or sensor noise. We address this by formulating BFM task-inference as a robust minimax optimization problem, enabling adaptation to worst-case dynamics perturbations without modifying pretraining. To the best of our knowledge, this is the first BFM-based framework that achieves robustness to dynamics shifts while relying solely on offline data from a single nominal environment. Our approach significantly outperforms standard BFM and robust offline IL baselines under dynamics shifts. These results demonstrate that robust policy can be achieved entirely at task-inference time, improving the practicality of BFMs in dynamic settings.
- Abstract(参考訳): 行動基礎モデル(BFM)は、新しいタスクに迅速に適応可能なタスクに依存しない表現を事前訓練することにより、スケーラブルな模倣学習(IL)を可能にする。
しかし、既存のBFMは固定環境力学を前提としており、摩擦やアクティベーション、センサノイズなどの実世界の変化の下では頑丈さを制限している。
我々は,BFMタスク推論を高機能なミニマックス最適化問題として定式化し,事前学習を変更せずに最悪の動的摂動への適応を可能にする。
私たちの知る限りでは、単一の名目環境からのオフラインデータにのみ依存しながら、動的シフトに対する堅牢性を実現する最初のBFMベースのフレームワークです。
我々のアプローチは、動的シフトの下で標準のBFMとロバストなオフラインILベースラインを著しく上回る。
これらの結果から, 動的環境下でのBFMの実用性を向上させるとともに, タスク・推論時のロバストポリシを完全に達成できることが示唆された。
関連論文リスト
- RFPrompt: Prompt-Based Expert Adaptation of the Large Wireless Model for Modulation Classification [7.858819231575403]
無線基礎モデルにおけるOOD転送の一般的なメカニズムとしてのプロンプトベース適応について検討する。
本稿では,学習可能な深いプロンプトトークンを導入し,事前学習したバックボーンの凍結を保ちながら,パラメータ効率のよいフレームワークRFPromptを提案する。
その結果、プロンプトベースの適応は、分散シフトおよび限定的な監督の下で、一貫して堅牢性を改善することが示された。
論文 参考訳(メタデータ) (2026-05-05T02:09:58Z) - Adaptive Linear Path Model-Based Diffusion [52.84663832658799]
リニアパスモデルベース拡散(LP-MBD)を導入し、分散保存スケジュールをフローマッチング線形確率パスに置き換える。
また,適応型LP-MBD(ALP-MBD)を提案し,タスクの複雑さや環境条件に応じて拡散ステップやノイズレベルを調整する。
論文 参考訳(メタデータ) (2026-02-02T21:33:03Z) - Aligning Agentic World Models via Knowledgeable Experience Learning [68.85843641222186]
環境フィードバックをシンセサイザー化したWorld Knowledge Repositoryを構築するフレームワークであるWorldMindを紹介する。
WorldMindは、優れたクロスモデルとクロス環境転送性を備えたベースラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-19T17:33:31Z) - Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making [48.998030470623384]
オフラインの意思決定は、さらなるインタラクションを伴わずに、固定データセットからの信頼性の高い振る舞いを必要とする。
i)タスク整列軌道を多様に生成するプランナー,(ii)システム力学との整合性を強制するダイナミクスモデル,(iii)タスク目標に整合した動作を選択するランサーモジュールからなる構成モデルに基づく拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-09T06:26:02Z) - Balance Equation-based Distributionally Robust Offline Imitation Learning [8.607736795429638]
イミテーション・ラーニング(IL)は、報酬関数や明示的なコントローラを手動で設計するロボットや制御タスクに非常に効果的であることが証明されている。
標準のILメソッドは、トレーニングとデプロイメントの間に環境のダイナミクスが固定されていると暗黙的に仮定します。
バランス方程式に基づく分散ロバストオフライン学習を通じてこの問題に対処する。
不確実な遷移モデルの集合に対する分布論的にロバストな最適化としてこの問題を定式化し、最悪の遷移分布の下での模倣損失を最小限に抑える政策を求める。
論文 参考訳(メタデータ) (2025-11-11T07:48:09Z) - Flexible Locomotion Learning with Diffusion Model Predictive Control [46.432397190673505]
本稿では,学習した生成拡散モデルを計画に先立って近似力学として活用する拡散MPCを提案する。
我々の設計では、テスト時適応性が強く、プランナーは、再訓練することなく、新しい報酬仕様に調整できる。
我々はDiffusion-MPCを実世界で検証し、強い移動と柔軟な適応を示す。
論文 参考訳(メタデータ) (2025-10-05T14:51:13Z) - Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - Zero-Shot Adaptation of Behavioral Foundation Models to Unseen Dynamics [42.446740732573296]
行動基礎モデル(BFM)は、任意のタスクに対してゼロショットでポリシーを作成することに成功した。
ここでは,BFMファミリーの手法の1つであるフォワード・バックワード(FB)表現が,異なるダイナミクスを区別できないことを示す。
本稿では,ゼロショット適応を大幅に促進するトランスフォーマーに基づく信念推定器を備えたFBモデルを提案する。
論文 参考訳(メタデータ) (2025-05-19T14:12:19Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。