論文の概要: Fine-Tuning Vision-Language Models for Visual Navigation Assistance
- arxiv url: http://arxiv.org/abs/2509.07488v1
- Date: Tue, 09 Sep 2025 08:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.224407
- Title: Fine-Tuning Vision-Language Models for Visual Navigation Assistance
- Title(参考訳): 視覚ナビゲーション支援のための微調整視覚言語モデル
- Authors: Xiao Li, Bharat Gandhi, Ming Zhan, Mohit Nehra, Zhicheng Zhang, Yuchen Sun, Meijia Song, Naisheng Zhang, Xi Wang,
- Abstract要約: 視覚障害者の視覚障害者の目標地点への到達を支援するために,視覚言語駆動型屋内ナビゲーションについて,画像と自然言語指導を用いて検討した。
提案手法は視覚と言語モデルを統合して,段階的なナビゲーション命令を生成し,アクセシビリティと独立性を向上する。
- 参考スコア(独自算出の注目度): 28.43430422119113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address vision-language-driven indoor navigation to assist visually impaired individuals in reaching a target location using images and natural language guidance. Traditional navigation systems are ineffective indoors due to the lack of precise location data. Our approach integrates vision and language models to generate step-by-step navigational instructions, enhancing accessibility and independence. We fine-tune the BLIP-2 model with Low Rank Adaptation (LoRA) on a manually annotated indoor navigation dataset. We propose an evaluation metric that refines the BERT F1 score by emphasizing directional and sequential variables, providing a more comprehensive measure of navigational performance. After applying LoRA, the model significantly improved in generating directional instructions, overcoming limitations in the original BLIP-2 model.
- Abstract(参考訳): 視覚障害者の視覚障害者の目標地点への到達を支援するために,視覚言語駆動型屋内ナビゲーションについて,画像と自然言語指導を用いて検討した。
従来のナビゲーションシステムは正確な位置情報がないため屋内では効果がない。
提案手法は視覚と言語モデルを統合して,段階的なナビゲーション命令を生成し,アクセシビリティと独立性を向上する。
低ランク適応(LoRA)を用いたBLIP-2モデルを,手動で注釈付き屋内ナビゲーションデータセット上で微調整する。
本稿では、方向変数とシーケンシャル変数を強調してBERT F1スコアを改良し、ナビゲーション性能のより包括的な指標を提供する評価指標を提案する。
LoRAの適用後、オリジナルのBLIP-2モデルの制限を克服し、方向指示の生成を大幅に改善した。
関連論文リスト
- PIG-Nav: Key Insights for Pretrained Image Goal Navigation Models [16.820485795257195]
PIG-Nav(Pretrained Image-Goal Navigation)は、視覚に基づくナビゲーションモデルの事前学習戦略をさらに研究する新しいアプローチである。
事前訓練されたナビゲーションモデルの性能を一貫して改善する2つの重要な設計選択を同定する。
我々のモデルは、ゼロショット設定の平均22.6%の改善と、既存のビジュアルナビゲーション基盤モデルよりも37.5%の微調整設定の改善を実現している。
論文 参考訳(メタデータ) (2025-07-23T05:34:20Z) - NavigScene: Bridging Local Perception and Global Navigation for Beyond-Visual-Range Autonomous Driving [10.597463021650382]
NavigSceneは、自律運転システム内の人間のような運転環境をシミュレートする補助的なナビゲーション誘導自然言語データセットである。
NavigSceneを活用するための3つのパラダイムを開発する。(1)ナビゲーションコンテキストをプロンプトアプローチに組み込むことで視覚言語モデルを強化するナビゲーション誘導推論、(2)視覚言語モデル応答を改善するための直接参照最適化を拡張する強化学習手法であるナビゲーション誘導推論、(3)ナビゲーション誘導視覚言語モデルと特徴融合による従来の運転モデルを統合するナビゲーション誘導言語推論モデルである。
論文 参考訳(メタデータ) (2025-07-07T17:37:01Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Kefa: A Knowledge Enhanced and Fine-grained Aligned Speaker for
Navigation Instruction Generation [70.76686546473994]
ナビゲーション命令生成のための新しい話者モデルtextscKefaを提案する。
提案したKEFA話者は,屋内および屋外の両方で最先端の指示生成性能を実現する。
論文 参考訳(メタデータ) (2023-07-25T09:39:59Z) - NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large
Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。
NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。
本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-26T14:41:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。