論文の概要: SE-VLN: A Self-Evolving Vision-Language Navigation Framework Based on Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2507.13152v2
- Date: Fri, 25 Jul 2025 13:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 14:14:27.336295
- Title: SE-VLN: A Self-Evolving Vision-Language Navigation Framework Based on Multimodal Large Language Models
- Title(参考訳): SE-VLN:マルチモーダル大言語モデルに基づく自己進化型視覚言語ナビゲーションフレームワーク
- Authors: Xiangyu Dong, Haoran Zhao, Jiang Gao, Haozhou Li, Xiaoguang Ma, Yaoming Zhou, Fuhai Chen, Juan Liu,
- Abstract要約: SE-VLNは視覚言語ナビゲーションのための自己進化型フレームワークである
3つのコアモジュール、すなわち階層型メモリモジュール、検索強化思考ベースの推論モジュール、リフレクションモジュールで構成されている。
R2RとREVERSEのデータセットの現在の手法よりも23.9%と15.0%の絶対的なパフォーマンス向上を示している。
- 参考スコア(独自算出の注目度): 10.991578973608307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language navigation (VLN) were mainly attributed to emerging large language models (LLMs). These methods exhibited excellent generalization capabilities in instruction understanding and task reasoning. However, they were constrained by the fixed knowledge bases and reasoning abilities of LLMs, preventing fully incorporating experiential knowledge and thus resulting in a lack of efficient evolutionary capacity. To address this, we drew inspiration from the evolution capabilities of natural agents, and proposed a self-evolving VLN framework (SE-VLN) to endow VLN agents with the ability to continuously evolve during testing. To the best of our knowledge, it was the first time that an multimodal LLM-powered self-evolving VLN framework was proposed. Specifically, SE-VLN comprised three core modules, i.e., a hierarchical memory module to transfer successful and failure cases into reusable knowledge, a retrieval-augmented thought-based reasoning module to retrieve experience and enable multi-step decision-making, and a reflection module to realize continual evolution. Comprehensive tests illustrated that the SE-VLN achieved navigation success rates of 57% and 35.2% in unseen environments, representing absolute performance improvements of 23.9% and 15.0% over current state-of-the-art methods on R2R and REVERSE datasets, respectively. Moreover, the SE-VLN showed performance improvement with increasing experience repository, elucidating its great potential as a self-evolving agent framework for VLN.
- Abstract(参考訳): 視覚言語ナビゲーション(VLN)の最近の進歩は、主に新興の大規模言語モデル(LLM)によるものである。
これらの手法は命令理解とタスク推論において優れた一般化能力を示した。
しかし、それらはLLMの固定された知識基盤と推論能力に制約され、経験的知識を完全に取り入れることができず、結果として効率的な進化能力が欠如する結果となった。
そこで我々は,自然エージェントの進化能力からインスピレーションを得て,テスト中に連続的に進化するVLNエージェントを実現する自己進化型VLNフレームワーク(SE-VLN)を提案した。
我々の知る限り、マルチモーダル LLM による自己進化型 VLN フレームワークが提案されたのは初めてである。
特に、SE-VLNは3つのコアモジュール、すなわち成功事例と失敗事例を再利用可能な知識に転送する階層的メモリモジュール、経験を検索し、多段階の意思決定を可能にする検索強化思考に基づく推論モジュール、連続的な進化を実現するリフレクションモジュールから構成されている。
総合的なテストの結果、SE-VLNは未確認環境での航法成功率は57%と35.2%で、それぞれR2RとREVERSEデータセットの現在の最先端手法よりも23.9%と15.0%の絶対的な性能向上を示した。
さらに、SE-VLNは、エクスペリエンスレポジトリの増加とともにパフォーマンスが向上し、VLNの自己進化エージェントフレームワークとして大きな可能性を解明した。
関連論文リスト
- Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - EvolveNav: Self-Improving Embodied Reasoning for LLM-Based Vision-Language Navigation [111.0993686148283]
本稿では,EvolveNavと呼ばれるビジョンランゲージナビゲーションを向上するための,新たなSElf-imbodied embodied reasoningフレームワークを提案する。
EvolveNav は,(1) 形式化された CoT ラベルを用いたモデルトレーニング,(2) 自己表現的ポストトライニング,(2) モデルが自己強化 CoT ラベルとして独自の推論出力で反復的にトレーニングされ,監督の多様性を高めるための,形式化された CoT ラベルによるモデルトレーニング,の2つの段階で構成されている。
論文 参考訳(メタデータ) (2025-06-02T11:28:32Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.19991097260115]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。
特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。
オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (2025-04-14T17:59:25Z) - Towards Understanding How Knowledge Evolves in Large Vision-Language Models [55.82918299608732]
我々はマルチモーダル知識がどのように進化し、最終的にLVLM(Large Vision-Language Models)において自然言語を誘導するかを考察する。
知識進化における2つの重要なノードを同定する: 臨界層と突然変異層、進化過程を3段階に分割する: 急速な進化、安定化、突然変異。
我々の研究は、LVLMにおける知識進化の軌跡を初めて明らかにし、その基盤となるメカニズムを理解するための新たな視点を提供する。
論文 参考訳(メタデータ) (2025-03-31T17:35:37Z) - UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent [14.089700378708756]
textbfUP-VLA, textbfUnified VLA model training with multi-modal textbfUnderstanding and future textbfPrediction objectives。
UP-VLAはCalvin ABC-Dベンチマークの33%の改善を実現している。
論文 参考訳(メタデータ) (2025-01-31T03:20:09Z) - Vision-Language Navigation with Continual Learning [10.850410419782424]
視覚言語ナビゲーション(VLN)は、組み込みインテリジェンスにおいて重要なドメインである。
本稿では,この課題に対処するために,ビジョンランゲージナビゲーションと連続学習パラダイムを提案する。
このパラダイムでは、エージェントは、以前獲得した知識を維持しながら、新たな環境を漸進的に学習する。
論文 参考訳(メタデータ) (2024-09-04T09:28:48Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。