論文の概要: Run, Ruminate, and Regulate: A Dual-process Thinking System for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2511.14131v1
- Date: Tue, 18 Nov 2025 04:32:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.934743
- Title: Run, Ruminate, and Regulate: A Dual-process Thinking System for Vision-and-Language Navigation
- Title(参考訳): ランニング・ラミネート・レギュレーション:ビジョン・アンド・ランゲージ・ナビゲーションのためのデュアルプロセス思考システム
- Authors: Yu Zhong, Zihao Zhang, Rui Zhang, Lingdong Huang, Haihan Gao, Shuo Wang, Da Li, Ruijian Han, Jiaming Guo, Shaohui Peng, Di Huang, Yunji Chen,
- Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが人間の指示に従って複雑な3D環境を動的に探索する必要がある。
近年の研究では、一般的な知識と一般的な推論能力から、大きな言語モデル(LLM)をVLNに活用する可能性を強調している。
本稿では、LLMの一般化機能とVLN固有の専門知識をゼロショットで統合する、R3と呼ばれる新しいデュアルプロセス思考フレームワークを提案する。
- 参考スコア(独自算出の注目度): 52.11339614452127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) requires an agent to dynamically explore complex 3D environments following human instructions. Recent research underscores the potential of harnessing large language models (LLMs) for VLN, given their commonsense knowledge and general reasoning capabilities. Despite their strengths, a substantial gap in task completion performance persists between LLM-based approaches and domain experts, as LLMs inherently struggle to comprehend real-world spatial correlations precisely. Additionally, introducing LLMs is accompanied with substantial computational cost and inference latency. To address these issues, we propose a novel dual-process thinking framework dubbed R3, integrating LLMs' generalization capabilities with VLN-specific expertise in a zero-shot manner. The framework comprises three core modules: Runner, Ruminator, and Regulator. The Runner is a lightweight transformer-based expert model that ensures efficient and accurate navigation under regular circumstances. The Ruminator employs a powerful multimodal LLM as the backbone and adopts chain-of-thought (CoT) prompting to elicit structured reasoning. The Regulator monitors the navigation progress and controls the appropriate thinking mode according to three criteria, integrating Runner and Ruminator harmoniously. Experimental results illustrate that R3 significantly outperforms other state-of-the-art methods, exceeding 3.28% and 3.30% in SPL and RGSPL respectively on the REVERIE benchmark. This pronounced enhancement highlights the effectiveness of our method in handling challenging VLN tasks.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、エージェントが人間の指示に従って複雑な3D環境を動的に探索する必要がある。
近年の研究では、一般的な知識と一般的な推論能力から、大きな言語モデル(LLM)をVLNに活用する可能性を強調している。
それらの長所にもかかわらず、LLMに基づくアプローチとドメインの専門家の間にはタスク完了性能のかなりのギャップが持続しており、LLMは本質的に現実世界の空間的相関を正確に理解するのに苦労している。
加えて、LLMの導入には相当な計算コストと推論遅延が伴う。
これらの問題に対処するため、我々はLLMの一般化機能とVLN固有の専門知識をゼロショットで統合する、R3と呼ばれる新しいデュアルプロセス思考フレームワークを提案する。
フレームワークはRunner、Ruminator、Regulatorの3つのコアモジュールで構成されている。
Runnerは軽量トランスフォーマーベースのエキスパートモデルで、通常の状況下で効率よく正確なナビゲーションを実現する。
ルーミネーターは強力なマルチモーダルLSMをバックボーンとして採用し、構造的推論を誘発するチェーン・オブ・シント(CoT)を採用する。
レギュレータはナビゲーションの進捗を監視し、3つの基準に従って適切な思考モードを制御する。
実験の結果、R3はREVERIEベンチマークでそれぞれ3.28%、RGSPLが3.30%、他の最先端の手法よりも大幅に優れていた。
この拡張は,VLNの課題に対処する上で,本手法の有効性を強調している。
関連論文リスト
- MeltRTL: Multi-Expert LLMs with Inference-time Intervention for RTL Code Generation [0.0]
MeltRTLは、マルチエキスパートの注意と推論時間の介入を統合する新しいフレームワークである。
MeltRTLは、ベースモデルを再トレーニングすることなく、大きな言語モデル(LLM)の精度を大幅に改善する。
We evaluate MeltRTL on the VerilogEval benchmark, achieve 96% synthesizability and 60% functional correctness。
論文 参考訳(メタデータ) (2026-01-19T12:49:39Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - HunyuanOCR Technical Report [28.160663178408864]
HunyuanOCRは、OCRタスク専用の商用グレード、オープンソース、軽量(1Bパラメータ)ビジョンランゲージモデル(VLM)である。
認識タスク(テキストスポッティング、パーシング)における現在の公開ソリューションを超え、セマンティックタスク(IE、テキスト画像翻訳)において優れています。
3Bパラメータ未満のVLMのうち、OCRBenchのSOTA(State-of-the-art)結果が得られる。
論文 参考訳(メタデータ) (2025-11-24T17:59:59Z) - Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models [11.39711340224126]
Search-R3は、Large Language Modelsを適用して、彼らの推論プロセスの直接出力として検索埋め込みを生成する新しいフレームワークである。
我々のアプローチはLLMのチェーン・オブ・シント機能を利用しており、複雑な意味解析を通じてステップ・バイ・ステップを推論することでより効果的な埋め込みを実現できる。
論文 参考訳(メタデータ) (2025-10-08T14:16:20Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - EvolveNav: Empowering LLM-Based Vision-Language Navigation via Self-Improving Embodied Reasoning [145.32076310071434]
EvolveNavは,適応的かつ一般化可能なナビゲーション推論を実現するための,新しい具体的推論パラダイムである。
EvolveNav は,(1) 形式化された CoT 監督ファインチューニング,(2) モデルが自己富化 CoT ラベルとして独自の推論出力で反復的に訓練され,監督の多様性を高めるために,モデルのナビゲーション推論能力を最初に活性化し,同時に推論速度を向上させるための形式化された CoT ラベルを用いてモデルを訓練する。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models [9.304973961799359]
視覚言語モデル(VLM)はシナリオ理解の促進に重要な役割を果たしている。
幻覚や現実世界の接地不足といった課題に直面している。
本研究では, コーナーケース理解におけるVLMの性能向上を目的としたRAC3を提案する。
論文 参考訳(メタデータ) (2024-12-15T04:51:30Z) - Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。