論文の概要: State Combinatorial Generalization In Decision Making With Conditional Diffusion Models
- arxiv url: http://arxiv.org/abs/2501.13241v1
- Date: Wed, 22 Jan 2025 21:48:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:57:47.690468
- Title: State Combinatorial Generalization In Decision Making With Conditional Diffusion Models
- Title(参考訳): 条件付き拡散モデルを用いた意思決定における状態組合せ一般化
- Authors: Xintong Duan, Yutong He, Fahim Tajwar, Wen-Tse Chen, Ruslan Salakhutdinov, Jeff Schneider,
- Abstract要約: 我々は、既存の価値に基づく強化学習アルゴリズムが、未知の状態における信頼できない価値予測のためにいかに苦労しているかを示す。
この問題は探索だけでは解決できないが、より表現的で一般化可能なモデルを必要とする。
条件付き拡散モデルは従来のRL手法より優れており、問題定式化の幅広い適用性を強調している。
- 参考スコア(独自算出の注目度): 48.91240871813614
- License:
- Abstract: Many real-world decision-making problems are combinatorial in nature, where states (e.g., surrounding traffic of a self-driving car) can be seen as a combination of basic elements (e.g., pedestrians, trees, and other cars). Due to combinatorial complexity, observing all combinations of basic elements in the training set is infeasible, which leads to an essential yet understudied problem of zero-shot generalization to states that are unseen combinations of previously seen elements. In this work, we first formalize this problem and then demonstrate how existing value-based reinforcement learning (RL) algorithms struggle due to unreliable value predictions in unseen states. We argue that this problem cannot be addressed with exploration alone, but requires more expressive and generalizable models. We demonstrate that behavior cloning with a conditioned diffusion model trained on expert trajectory generalizes better to states formed by new combinations of seen elements than traditional RL methods. Through experiments in maze, driving, and multiagent environments, we show that conditioned diffusion models outperform traditional RL techniques and highlight the broad applicability of our problem formulation.
- Abstract(参考訳): 多くの現実の意思決定問題は、自然界において組合せ的であり、状態(例えば、自動運転車の周囲の交通)は基本的な要素(例えば、歩行者、木、その他の車)の組み合わせと見なすことができる。
組合せの複雑さのため、トレーニングセットの基本的な要素のすべての組み合わせを観測することは不可能であり、これまで見られなかった要素の組み合わせである状態へのゼロショットの一般化という本質的かつ未検討の問題を引き起こす。
本研究では,まずこの問題を定式化し,未知の状態における信頼できない値予測により,既存の値ベース強化学習(RL)アルゴリズムがいかに困難であるかを示す。
この問題は探索だけでは解決できないが、より表現的で一般化可能なモデルを必要とする。
本研究では, 従来のRL法よりも, 新しい要素の組み合わせによって形成される状態に対して, 専門家軌道上で訓練された条件付き拡散モデルによる行動クローニングがより一般化されることを実証する。
迷路, 運転, マルチエージェント環境における実験により, 条件付き拡散モデルは従来のRL技術より優れており, 問題定式化の広範な適用性を強調している。
関連論文リスト
- The Non-Local Model Merging Problem: Permutation Symmetries and Variance Collapse [25.002218722102505]
モデルマージは、特定のタスクでトレーニングされた複数のエキスパートモデルの重みを、単一のマルチタスクモデルに効率的に結合することを目的としている。
この研究は、"非ローカル"マージのより困難なシナリオを探求する。
標準的なマージ技術は、この非局所的な環境で効果的に一般化できないことが多い。
本稿では,タスク毎のマージモデルの出力アクティベーションを再スケール・シフトするマルチタスク手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T17:41:59Z) - Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。
モデルは、問題の解決に影響を与えない、微妙な問題バリエーションでさえも強い変動を示すため、その分解は劇的である。
これらの初期観測は、現在世代の大言語モデルが主張する能力の再評価を急激に促すものである。
論文 参考訳(メタデータ) (2024-06-04T07:43:33Z) - Transform then Explore: a Simple and Effective Technique for Exploratory Combinatorial Optimization with Reinforcement Learning [11.531786269804707]
グラフ上の最適化問題(COP)を解決するためのゲージ変換(GT)手法を提案する。
GTは非常にシンプルで、10行未満のPythonコードで実装でき、ほとんどの強化学習モデルに適用できる。
GTを用いた従来のRLモデルでは,MaxCut問題に対して最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-04-06T15:31:17Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Explainable data-driven modeling via mixture of experts: towards
effective blending of grey and black-box models [6.331947318187792]
専門家の混成」の理論的根拠に基づく包括的枠組みを提案する。
このアプローチは、多様なローカルモデルのデータベースの融合を可能にする。
我々は,解釈可能性を高めるために,専門家の組み合わせの急激な変化を罰する。
論文 参考訳(メタデータ) (2024-01-30T15:53:07Z) - Controllable and Compositional Generation with Latent-Space Energy-Based
Models [60.87740144816278]
制御可能な生成は、現実世界のアプリケーションで深層生成モデルの採用を成功させる上で重要な要件の1つである。
本研究では, エネルギーモデル(EBM)を用いて, 属性の集合上での合成生成を扱う。
エネルギー関数を論理演算子と合成することにより、分解能1024x1024のフォトリアリスティック画像を生成する際に、このような構成性を実現するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-21T03:31:45Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Total Deep Variation: A Stable Regularizer for Inverse Problems [71.90933869570914]
本稿では,データ駆動型汎用全深度変動正規化器について紹介する。
コアでは、畳み込みニューラルネットワークが複数のスケールや連続したブロックで局所的な特徴を抽出する。
我々は多数の画像処理タスクに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-15T21:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。