論文の概要: Vision-Language Navigation with Energy-Based Policy
- arxiv url: http://arxiv.org/abs/2410.14250v1
- Date: Fri, 18 Oct 2024 08:01:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:16.376171
- Title: Vision-Language Navigation with Energy-Based Policy
- Title(参考訳): エネルギー政策によるビジョンランゲージナビゲーション
- Authors: Rui Liu, Wenguan Wang, Yi Yang,
- Abstract要約: 視覚言語ナビゲーション(VLN)は、人間の指示に従って行動を実行するエージェントを必要とする。
共同状態-行動分布をモデル化するためのエネルギーベースナビゲーションポリシー(ENP)を提案する。
ENPはR2R、REVERIE、RxR、R2R-CEで有望なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 66.04379819772764
- License:
- Abstract: Vision-language navigation (VLN) requires an agent to execute actions following human instructions. Existing VLN models are optimized through expert demonstrations by supervised behavioural cloning or incorporating manual reward engineering. While straightforward, these efforts overlook the accumulation of errors in the Markov decision process, and struggle to match the distribution of the expert policy. Going beyond this, we propose an Energy-based Navigation Policy (ENP) to model the joint state-action distribution using an energy-based model. At each step, low energy values correspond to the state-action pairs that the expert is most likely to perform, and vice versa. Theoretically, the optimization objective is equivalent to minimizing the forward divergence between the occupancy measure of the expert and ours. Consequently, ENP learns to globally align with the expert policy by maximizing the likelihood of the actions and modeling the dynamics of the navigation states in a collaborative manner. With a variety of VLN architectures, ENP achieves promising performances on R2R, REVERIE, RxR, and R2R-CE, unleashing the power of existing VLN models.
- Abstract(参考訳): 視覚言語ナビゲーション(VLN)は、人間の指示に従って行動を実行するエージェントを必要とする。
既存のVLNモデルは、行動クローニングを監督したり、手動報酬工学を取り入れることで、専門家によるデモンストレーションを通じて最適化される。
単純ではあるが、これらの取り組みはマルコフ決定プロセスにおけるエラーの蓄積を見落とし、専門家の方針の分布に合わせるのに苦労している。
これを超えてエネルギーベースナビゲーションポリシー (ENP) を提案し、エネルギーベースモデルを用いて共同状態-行動分布をモデル化する。
各ステップにおいて、低エネルギー値は、専門家が最も実行する可能性が高い状態-作用対に対応し、その逆である。
理論的には、最適化の目的は、専門家と専門家の占有率の差を最小限に抑えることである。
その結果、ENPは、行動の可能性を最大化し、ナビゲーション状態のダイナミクスを協調的にモデル化することで、専門家の方針とグローバルに整合することを学ぶ。
様々なVLNアーキテクチャにより、ENPはR2R、REVERIE、RxR、R2R-CEで有望なパフォーマンスを達成し、既存のVLNモデルのパワーを解放する。
関連論文リスト
- Operator World Models for Reinforcement Learning [37.69110422996011]
Policy Mirror Descent (PMD) は、シーケンシャルな意思決定のための強力で理論的に健全な方法論である。
明示的なアクション値関数が利用できないため、強化学習(Reinforcement Learning, RL)には直接適用できない。
本研究では,条件付き平均埋め込みを用いた環境のワールドモデル学習に基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-28T12:05:47Z) - Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。
我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。
XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文 参考訳(メタデータ) (2024-05-31T17:39:06Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Beyond Reverse KL: Generalizing Direct Preference Optimization with
Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。
RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。
DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。
Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文 参考訳(メタデータ) (2023-09-28T08:29:44Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。