論文の概要: NavQ: Learning a Q-Model for Foresighted Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2510.16457v1
- Date: Sat, 18 Oct 2025 11:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.003453
- Title: NavQ: Learning a Q-Model for Foresighted Vision-and-Language Navigation
- Title(参考訳): NavQ: 視線・視線ナビゲーションのためのQモデル学習
- Authors: Peiran Xu, Xicheng Gong, Yadong MU,
- Abstract要約: 本研究は,目標指向ビジョン・アンド・ランゲージナビゲーション(VLN)の課題に焦点を当てる。
大規模未ラベルトラジェクトリデータを用いて,Q-ラーニングを用いてQ-モデルを訓練する。
タスクに依存しないQ-Featureをナビゲーション命令と統合し、将来の展望を反映した一連のアクションスコアを生成する。
- 参考スコア(独自算出の注目度): 43.673180802522864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we concentrate on the task of goal-oriented Vision-and-Language Navigation (VLN). Existing methods often make decisions based on historical information, overlooking the future implications and long-term outcomes of the actions. In contrast, we aim to develop a foresighted agent. Specifically, we draw upon Q-learning to train a Q-model using large-scale unlabeled trajectory data, in order to learn the general knowledge regarding the layout and object relations within indoor scenes. This model can generate a Q-feature, analogous to the Q-value in traditional Q-network, for each candidate action, which describes the potential future information that may be observed after taking the specific action. Subsequently, a cross-modal future encoder integrates the task-agnostic Q-feature with navigation instructions to produce a set of action scores reflecting future prospects. These scores, when combined with the original scores based on history, facilitate an A*-style searching strategy to effectively explore the regions that are more likely to lead to the destination. Extensive experiments conducted on widely used goal-oriented VLN datasets validate the effectiveness of the proposed method.
- Abstract(参考訳): 本研究では,目標指向ビジョン・アンド・ランゲージナビゲーション(VLN)の課題に集中する。
既存の手法は、多くの場合、過去の情報に基づいて決定を下し、将来の意味や行動の長期的な結果を見越す。
対照的に、私たちは目に見えるエージェントを開発することを目指している。
具体的には,大規模未ラベル軌跡データを用いてQ-ラーニングを行い,屋内シーンにおけるレイアウトやオブジェクトの関係に関する一般的な知識を学習する。
このモデルは、従来のQ-ネットワークのQ-値に類似したQ-Featureを生成することができ、特定のアクションを受けた後に観測される可能性のある潜在的な将来情報を記述する。
その後、タスクに依存しないQ-Featureをナビゲーション命令と統合して、将来の展望を反映した一連のアクションスコアを生成する。
これらのスコアは、歴史に基づく元のスコアと組み合わせることで、A*スタイルの探索戦略を促進し、目的地に導く可能性が高い地域を効果的に探索する。
広く使われている目標指向VLNデータセットに対して行われた大規模な実験により,提案手法の有効性が検証された。
関連論文リスト
- History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation [5.343932820859596]
本稿では、動的履歴認識プロンプトの利用を先駆する新しいゼロショットObjectNavフレームワークを提案する。
私たちの中心となるイノベーションは、VLMにアクション履歴コンテキストを提供し、ナビゲーションアクションのセマンティックガイダンススコアを生成することです。
また、検出対象に対する最終アプローチを洗練するためのVLM支援のウェイポイント生成機構も導入する。
論文 参考訳(メタデータ) (2025-06-19T21:50:16Z) - SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models [10.671262416557704]
Vision Foundation Models (VFM) は視覚的理解と推論に強力な機能を提供する。
本稿では,VFMの知覚的強度をモデルベースプランナと統合したゼロショットオブジェクトゴールナビゲーションフレームワークを提案する。
本研究では,Habitatシミュレータを用いてHM3Dデータセットに対するアプローチを評価し,提案手法が最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-06-04T03:04:54Z) - QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。
ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。
我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文 参考訳(メタデータ) (2025-02-04T18:58:31Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Object Goal Navigation using Data Regularized Q-Learning [9.65323691689801]
Object Goal Navigationでは、ロボットが未確認の環境で対象のオブジェクトクラスのインスタンスを探し、ナビゲートする必要がある。
我々のフレームワークは、時間とともに環境のセマンティックマップを段階的に構築し、その後、長期的目標を何度も選択します。
長期的なゴール選択は、視覚に基づく深層強化学習問題として定式化される。
論文 参考訳(メタデータ) (2022-08-27T13:26:30Z) - Knowing Earlier what Right Means to You: A Comprehensive VQA Dataset for
Grounding Relative Directions via Multi-Task Learning [16.538887534958555]
GRiD-A-3Dは,抽象オブジェクトに基づく新しい視覚的質問応答データセットである。
我々のデータセットは、相対的な方向へのエンド・ツー・エンドのVQAモデルの機能を詳細に分析することを可能にする。
幾つかのエポックにおいて、相対方向を判断するために必要なサブタスクが、相対方向を直感的に処理する順序で学習されることを実証する。
論文 参考訳(メタデータ) (2022-07-06T12:31:49Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。