Fugu-MT 論文翻訳(概要): NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models

論文の概要: NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2407.12366v1
Date: Wed, 17 Jul 2024 07:44:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 18:07:45.422495
Title: NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models
Title（参考訳）: NavGPT-2:大規模視覚言語モデルのためのナビゲーション推論能力の開放
Authors: Gengze Zhou, Yicong Hong, Zun Wang, Xin Eric Wang, Qi Wu,
Abstract要約: 我々は、VLN特化モデルとLLMに基づくナビゲーションパラダイムの分割を橋渡しする。我々は、効果的な行動予測とナビゲーション推論のために、LCMとナビゲーションポリシーネットワークを組み込む方法を利用する。
参考スコア（独自算出の注目度）: 30.685419129265252
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Capitalizing on the remarkable advancements in Large Language Models (LLMs), there is a burgeoning initiative to harness LLMs for instruction following robotic navigation. Such a trend underscores the potential of LLMs to generalize navigational reasoning and diverse language understanding. However, a significant discrepancy in agent performance is observed when integrating LLMs in the Vision-and-Language navigation (VLN) tasks compared to previous downstream specialist models. Furthermore, the inherent capacity of language to interpret and facilitate communication in agent interactions is often underutilized in these integrations. In this work, we strive to bridge the divide between VLN-specialized models and LLM-based navigation paradigms, while maintaining the interpretative prowess of LLMs in generating linguistic navigational reasoning. By aligning visual content in a frozen LLM, we encompass visual observation comprehension for LLMs and exploit a way to incorporate LLMs and navigation policy networks for effective action predictions and navigational reasoning. We demonstrate the data efficiency of the proposed methods and eliminate the gap between LM-based agents and state-of-the-art VLN specialists.
Abstract（参考訳）: LLM(Large Language Models)の目覚ましい進歩に乗じて、LLMをロボットナビゲーションの指導に活用する活動が盛んである。このような傾向は、航法的推論と多様な言語理解を一般化するLLMの可能性を浮き彫りにしている。しかし、従来のダウンストリームスペシャリストモデルと比較して、ビジョン・アンド・ランゲージ・ナビゲーション(VLN)タスクにLLMを統合する際には、エージェント性能の顕著な相違が観察される。さらに、エージェント間相互作用におけるコミュニケーションを解釈し、促進する言語の本質的な能力は、これらの統合においてしばしば未利用である。本研究では,言語ナビゲーションの推論におけるLLMの解釈能力を維持しつつ,VLN特化モデルとLLMに基づくナビゲーションパラダイムの分割を橋渡しする。凍結したLCMにおける視覚的内容の整合化により、LCMの視覚的理解を包含し、LCMとナビゲーションポリシーネットワークを効果的に行動予測とナビゲーション推論に組み込む方法を利用する。本稿では,提案手法のデータ効率を実証し,LMベースのエージェントと最先端のVLNスペシャリストとのギャップを解消する。

関連論文リスト

Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation [15.242490558864626]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従い、これまで見えなかった環境をナビゲートする必要がある。本稿では,基礎となる言語モデルの変更や微調整を行うことなく,VLNを改善するための検索拡張フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-17T17:00:11Z)
VLN-MME: Diagnosing MLLMs as Language-guided Visual Navigation agents [12.383467162169703]
ゼロショットエージェントとしてMLLMを探索するための統一的評価フレームワークを提案する。高度にモジュール化されたアクセシブルな設計で評価を単純化する。我々は,CoT推論と自己言語によるベースラインエージェントの強化が,予期せぬ性能低下につながることを観察した。
論文参考訳（メタデータ） (2025-12-31T13:21:21Z)
Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models [53.06230963851451]
JARVISは、MLLMの自己教師型視覚強調のためのJEPAにインスパイアされたフレームワークである。 JARVISは,MLLMの自己教師型視覚強調のためのJEPAに着想を得たフレームワークである。
論文参考訳（メタデータ） (2025-12-17T19:01:34Z)
Language-Unlocked ViT (LUViT): Empowering Self-Supervised Vision Transformers with LLMs [89.76543013729594]
ビジョントランスフォーマー(ViT)は、視覚のみのタスクのために、Large Language Model (LLM)ブロックと統合することができる。直接核融合はしばしばLSMのポテンシャルを完全に活用できず、不安定な微調整に悩まされる。 LUViTは、このモダリティミスマッチを相乗的な事前訓練戦略を通じて橋渡しする。
論文参考訳（メタデータ） (2025-07-01T13:58:21Z)
EvolveNav: Self-Improving Embodied Reasoning for LLM-Based Vision-Language Navigation [111.0993686148283]
本稿では,EvolveNavと呼ばれるビジョンランゲージナビゲーションを向上するための,新たなSElf-imbodied embodied reasoningフレームワークを提案する。 EvolveNav は,(1) 形式化された CoT ラベルを用いたモデルトレーニング,(2) 自己表現的ポストトライニング,(2) モデルが自己強化 CoT ラベルとして独自の推論出力で反復的にトレーニングされ,監督の多様性を高めるための,形式化された CoT ラベルによるモデルトレーニング,の2つの段階で構成されている。
論文参考訳（メタデータ） (2025-06-02T11:28:32Z)
Dynamic Path Navigation for Motion Agents with LLM Reasoning [69.5875073447454]
大規模言語モデル(LLM)は、強力な一般化可能な推論と計画能力を示している。本研究では,LLMのゼロショットナビゲーションと経路生成機能について,データセットの構築と評価プロトコルの提案により検討する。このようなタスクが適切に構成されている場合、現代のLCMは、目標に到達するために生成された動きでナビゲーションを自律的に精錬しながら障害を回避するためのかなりの計画能力を示す。
論文参考訳（メタデータ） (2025-03-10T13:39:09Z)
AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Document Understanding [79.43306110124875]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-02-03T13:34:51Z)
LLM-Assisted Visual Analytics: Opportunities and Challenges [4.851427485686741]
本稿では,大規模言語モデル (LLM) を視覚分析システム (VA) に統合することを検討する。 LLMがVAにもたらす新たな可能性、特に通常のユースケースを超えてVAプロセスを変更する方法について強調する。 VAタスクで現在のLLMを使用する際の顕著な課題を慎重に検討する。
論文参考訳（メタデータ） (2024-09-04T13:24:03Z)
SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文参考訳（メタデータ） (2024-08-21T17:58:02Z)
Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models [12.687494201105066]
本稿では,Traj-LLMを提案する。Large Language Models (LLMs) を用いて,エージェントの過去の/観測された軌跡やシーンセマンティクスから将来の動きを生成する可能性について検討する。 LLMの強力な理解能力は、ハイレベルなシーン知識とインタラクティブな情報のスペクトルを捉えている。人為的な車線焦点認知機能を模倣し,先駆的なMambaモジュールを用いた車線認識確率論的学習を導入する。
論文参考訳（メタデータ） (2024-05-08T09:28:04Z)
TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文参考訳（メタデータ） (2024-03-13T05:22:39Z)
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文参考訳（メタデータ） (2024-03-12T07:27:02Z)
Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文参考訳（メタデータ） (2024-01-30T17:38:54Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs [72.49064988035126]
マルチモーダル大規模言語モデル(MLLM)の強化を目的としたMKS2という手法を提案する。具体的には、LLMの内部ブロックに組み込まれたコンポーネントであるModular Visual Memoryを導入し、オープンワールドの視覚情報を効率的に保存するように設計されている。実験により,MKS2は物理的・常識的な知識を必要とする文脈において,LLMの推論能力を大幅に増強することが示された。
論文参考訳（メタデータ） (2023-11-27T12:29:20Z)
Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文参考訳（メタデータ） (2023-10-10T03:06:38Z)
VELMA: Verbalization Embodiment of LLM Agents for Vision and Language Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。 VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文参考訳（メタデータ） (2023-07-12T11:08:24Z)
NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。 NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文参考訳（メタデータ） (2023-05-26T14:41:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。