論文の概要: Intention-Conditioned Flow Occupancy Models
- arxiv url: http://arxiv.org/abs/2506.08902v1
- Date: Tue, 10 Jun 2025 15:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.677424
- Title: Intention-Conditioned Flow Occupancy Models
- Title(参考訳): インテンシブ・コンディションド・フロー駆動モデル
- Authors: Chongyi Zheng, Seohong Park, Sergey Levine, Benjamin Eysenbach,
- Abstract要約: 大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
- 参考スコア(独自算出の注目度): 69.79049994662591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-training has fundamentally changed how machine learning research is done today: large foundation models are trained once, and then can be used by anyone in the community (including those without data or compute resources to train a model from scratch) to adapt and fine-tune to specific tasks. Applying this same framework to reinforcement learning (RL) is appealing because it offers compelling avenues for addressing core challenges in RL, including sample efficiency and robustness. However, there remains a fundamental challenge to pre-train large models in the context of RL: actions have long-term dependencies, so training a foundation model that reasons across time is important. Recent advances in generative AI have provided new tools for modeling highly complex distributions. In this paper, we build a probabilistic model to predict which states an agent will visit in the temporally distant future (i.e., an occupancy measure) using flow matching. As large datasets are often constructed by many distinct users performing distinct tasks, we include in our model a latent variable capturing the user intention. This intention increases the expressivity of our model, and enables adaptation with generalized policy improvement. We call our proposed method intention-conditioned flow occupancy models (InFOM). Comparing with alternative methods for pre-training, our experiments on $36$ state-based and $4$ image-based benchmark tasks demonstrate that the proposed method achieves $1.8 \times$ median improvement in returns and increases success rates by $36\%$. Website: https://chongyi-zheng.github.io/infom Code: https://github.com/chongyi-zheng/infom
- Abstract(参考訳): 大規模な事前トレーニングは、今日の機械学習研究のやり方を根本的に変えた。大規模な基礎モデルは一度トレーニングされ、コミュニティの誰にでも(データや計算リソースを使わずにスクラッチからモデルを訓練する)特定のタスクに適応し、微調整することができる。
同じフレームワークを強化学習(RL)に適用することは、サンプル効率や堅牢性など、RLの中核的な課題に対処するための魅力的な方法を提供するため、魅力的です。
しかしながら、RLの文脈では、大規模なモデルを事前トレーニングする上で、根本的な課題が残されている。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
本稿では,フローマッチングを用いて,エージェントが時間的に離れた未来(すなわち占有率)に訪れる状態を予測する確率モデルを構築した。
大規模なデータセットは、多くの異なるユーザが別々のタスクを実行することによって構築されることが多いので、当社のモデルには、ユーザの意図をキャプチャする潜在変数が含まれています。
この意図は、我々のモデルの表現性を高め、一般化された政策改善による適応を可能にする。
提案手法を意図条件付きフロー占有モデル (InFOM) と呼ぶ。
事前学習の代替手法と比較して,提案手法が18ドル(約1,300円)のリターン改善を実現し,成功率を36ドル(約3,300円)に向上させることを示す。
ウェブサイト: https://chongyi-zheng.github.io/infom Code: https://github.com/chongyi-zheng/infom
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
本稿では,SSM(State Space Model)ベースの世界モデルDramaを提案し,メモリと計算の複雑さを$O(n)$で実現した。
また, 早期のトレーニングにおいて, 誤った世界モデルによって引き起こされる準最適性を緩和する新しいサンプリング手法を提案する。
ドラマは、標準のラップトップのような市販のハードウェアでアクセス可能で、トレーニングできる。
論文 参考訳(メタデータ) (2024-10-11T15:10:40Z) - Multi-timestep models for Model-based Reinforcement Learning [10.940666275830052]
モデルベース強化学習(MBRL)では、ほとんどのアルゴリズムはデータに基づいて学習した1ステップのダイナミックスモデルからの軌道のシミュレーションに依存している。
我々は、マルチステップの目標を用いてワンステップモデルをトレーニングすることでこの問題に対処する。
指数関数的に減衰する重みは、長い水平R2スコアを著しく改善するモデルに繋がることがわかった。
論文 参考訳(メタデータ) (2023-10-09T12:42:39Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。