論文の概要: ProFocus: Proactive Perception and Focused Reasoning in Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2603.05530v1
- Date: Sun, 01 Mar 2026 04:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.489031
- Title: ProFocus: Proactive Perception and Focused Reasoning in Vision-and-Language Navigation
- Title(参考訳): ProFocus:視覚・言語ナビゲーションにおける積極的な知覚と推論
- Authors: Wei Xue, Mingcheng Li, Xuecheng Wu, Jingqun Tang, Dingkang Yang, Lihua Zhang,
- Abstract要約: 本稿では,UnderlineProactive PerceptionとUnderlineFocused Reasoningを統合したトレーニングフリープログレッシブフレームワークを提案する。
積極的に知覚するために、ProFocusはパノラマ観測を構造的エゴ中心のセマンティックマップに変換する。
そこで本研究では,BD-MCTS(Branch-Diverse Monte Carlo Tree Search)を提案する。
- 参考スコア(独自算出の注目度): 57.65093237897077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) requires agents to accurately perceive complex visual environments and reason over navigation instructions and histories. However, existing methods passively process redundant visual inputs and treat all historical contexts indiscriminately, resulting in inefficient perception and unfocused reasoning. To address these challenges, we propose \textbf{ProFocus}, a training-free progressive framework that unifies \underline{Pro}active Perception and \underline{Focus}ed Reasoning through collaboration between large language models (LLMs) and vision-language models (VLMs). For proactive perception, ProFocus transforms panoramic observations into structured ego-centric semantic maps, enabling the orchestration agent to identify missing visual information needed for reliable decision-making, and to generate targeted visual queries with corresponding focus regions that guide the perception agent to acquire the required observations. For focused reasoning, we propose Branch-Diverse Monte Carlo Tree Search (BD-MCTS) to identify top-$k$ high-value waypoints from extensive historical candidates. The decision agent focuses reasoning on the historical contexts associated with these waypoints, rather than considering all historical waypoints equally. Extensive experiments validate the effectiveness of ProFocus, achieving state-of-the-art performance among zero-shot methods on R2R and REVERIE benchmarks.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、複雑な視覚環境を正確に認識し、ナビゲーションの指示や履歴を判断するエージェントを必要とする。
しかし、既存の手法は冗長な視覚入力を受動的に処理し、すべての歴史的文脈を無差別に扱い、非効率な知覚と非集中的推論をもたらす。
これらの課題に対処するために,大規模な言語モデル (LLM) と視覚言語モデル (VLM) の協調を通じて, \underline{Pro}active Perception と \underline{Focus}ed Reasoning を統一する訓練自由プログレッシブフレームワークである \textbf{ProFocus} を提案する。
積極的に知覚するために、ProFocusはパノラマ観察を構造化されたエゴ中心のセマンティックマップに変換し、オーケストレーションエージェントが信頼性の高い意思決定に必要な視覚的情報の欠如を識別し、認識エージェントを誘導する対応する焦点領域でターゲットの視覚的クエリを生成する。
そこで我々は,BD-MCTS(Branch-Diverse Monte Carlo Tree Search)を提案する。
決定エージェントは、すべての歴史的方向を平等に考慮するのではなく、これらの方向ポイントに関連する歴史的文脈を推論することに重点を置いている。
R2RおよびREVERIEベンチマークのゼロショット法において,ProFocusの有効性を検証した。
関連論文リスト
- Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning [78.75062483648243]
視覚言語モデル(VLM)は、しばしば大量の視覚トークンを生成し、推論遅延とメモリフットプリントを大幅に増加させる。
視覚的質問に対して人間がどのように答えるかを模倣する,人間にインスパイアされたプラグアンドプレイプルーニングフレームワークであるFSRを提案する。
FSRは、既存の最先端プルーニング法よりも精度と効率のトレードオフを一貫して改善する。
論文 参考訳(メタデータ) (2026-02-05T16:02:48Z) - ViThinker: Active Vision-Language Reasoning via Dynamic Perceptual Querying [15.728211622542267]
ViThinkerは、要求に応じて専門家による視覚的特徴を合成するきっかけとなる意思決定トークンを視覚言語モデルが自律的に生成することを可能にするフレームワークである。
ViThinkerは、トレーニング中に視覚専門家の能力を内部化し、外部ツールコールなしで推論中に生成的なメンタルシミュレーションを実行する。
論文 参考訳(メタデータ) (2026-02-02T22:29:57Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - VisRL: Intention-Driven Visual Perception via Reinforced Reasoning [22.907814548315468]
本稿では、意図駆動型視覚知覚の問題に強化学習(RL)を適用した最初のフレームワークであるVisRLを提案する。
中間焦点選択を試行錯誤によって最適化した内部決定として扱うことにより,コストのかかる領域アノテーションの必要性を解消する。
提案手法は強いベースラインを常に上回り,その有効性と,異なるLMM間での強い一般化の両立を実証する。
論文 参考訳(メタデータ) (2025-03-10T16:49:35Z) - Referencing Where to Focus: Improving VisualGrounding with Referential Query [30.33315985826623]
本稿ではRefFormerと呼ばれる新しい視覚的接地手法を提案する。
これはクエリ適応モジュールで構成されており、CLIPにシームレスに統合できる。
提案するクエリ適応モジュールはアダプタとしても機能し,バックボーンネットワークのパラメータをチューニングすることなく,CLIP内の豊富な知識を保存できる。
論文 参考訳(メタデータ) (2024-12-26T10:19:20Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - Exploring Predicate Visual Context in Detecting Human-Object
Interactions [44.937383506126274]
クロスアテンションによる画像特徴の再導入について検討する。
PViCはHICO-DETおよびV-COCOベンチマークにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-08-11T15:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。