論文の概要: LaF-GRPO: In-Situ Navigation Instruction Generation for the Visually Impaired via GRPO with LLM-as-Follower Reward
- arxiv url: http://arxiv.org/abs/2506.04070v1
- Date: Wed, 04 Jun 2025 15:34:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.419951
- Title: LaF-GRPO: In-Situ Navigation Instruction Generation for the Visually Impaired via GRPO with LLM-as-Follower Reward
- Title(参考訳): LaF-GRPO:LLM-as-Follower Rewardを用いたGRPOによる視覚障害者のためのその場ナビゲーションインストラクション生成
- Authors: Yi Zhao, Siqi Wang, Jing Li,
- Abstract要約: 本研究は,視覚障害者(VI)を対象に,視覚障害者(VI)が実際に使用可能な,精密でその場でステップバイステップのナビゲーション命令を作成することに焦点を当てた。
LLM-as-Follower GRPOは、Vision-Language Model (VLM) のトレーニング後の報酬を生成する。
NIG4VIの実験は、定量測定によるLaF-GRPOの有効性を示した。
- 参考スコア(独自算出の注目度): 10.432056588923224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Navigation instruction generation for visually impaired (VI) individuals (NIG-VI) is critical yet relatively underexplored. This study, hence, focuses on producing precise, in-situ, step-by-step navigation instructions that are practically usable by VI users. Concretely, we propose LaF-GRPO (LLM-as-Follower GRPO), where an LLM simulates VI user responses to generate rewards guiding the Vision-Language Model (VLM) post-training. This enhances instruction usability while reducing costly real-world data needs. To facilitate training and testing, we introduce NIG4VI, a 27k-sample open-sourced benchmark. It provides diverse navigation scenarios with accurate spatial coordinates, supporting detailed, open-ended in-situ instruction generation. Experiments on NIG4VI show the effectiveness of LaF-GRPO by quantitative metrics (e.g., Zero-(LaF-GRPO) boosts BLEU +14\%; SFT+(LaF-GRPO) METEOR 0.542 vs. GPT-4o's 0.323) and yields more intuitive, safer instructions. Code and benchmark are available at \href{https://github.com/YiyiyiZhao/NIG4VI}{https://github.com/YiyiyiZhao/NIG4VI}.
- Abstract(参考訳): 視覚障害(VI)者(NIG-VI)に対するナビゲーション・インストラクション・ジェネレーションは極めて重要で、比較的未発見である。
そこで本研究では,VI ユーザが実際に使用可能な高精度なステップバイステップナビゲーション命令の作成に焦点をあてる。
具体的には、LLM-as-Follower GRPO(LaF-GRPO)を提案し、LLMはVIユーザ応答をシミュレートし、Vision-Language Model(VLM)後トレーニングを導く報酬を生成する。
これにより、命令の使いやすさが向上し、コストのかかる実世界のデータニーズが軽減される。
トレーニングとテストを容易にするため,27kサンプルのオープンソースベンチマークであるNIG4VIを紹介した。
正確な空間座標を持つ多様なナビゲーションシナリオを提供し、詳細でオープンなin-situ命令生成をサポートする。
NIG4VIの実験では、定量測定によるLaF-GRPOの有効性(例えば、Zero-(LaF-GRPO)はBLEU + 14\%、SFT+(LaF-GRPO) METEOR 0.542対GPT-4oの0.323)を示し、より直感的でより安全な指示を与える。
コードとベンチマークは \href{https://github.com/YiyyiZhao/NIG4VI}{https://github.com/YiyyiZhao/NIG4VI} で公開されている。
関連論文リスト
- NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - To See is to Believe: Prompting GPT-4V for Better Visual Instruction
Tuning [82.34463739289892]
LVIS-Instruct4Vには220Kの視覚的アライメントとコンテキスト認識の命令が含まれている。
LLaVA-InstructをLVIS-Instruct4Vに置き換えることで、最も難しいLMMベンチマークでLLaVAよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-13T18:59:31Z) - GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。
私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文 参考訳(メタデータ) (2023-09-28T16:43:35Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。