論文の概要: LaF-GRPO: In-Situ Navigation Instruction Generation for the Visually Impaired via GRPO with LLM-as-Follower Reward
- arxiv url: http://arxiv.org/abs/2506.04070v1
- Date: Wed, 04 Jun 2025 15:34:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.419951
- Title: LaF-GRPO: In-Situ Navigation Instruction Generation for the Visually Impaired via GRPO with LLM-as-Follower Reward
- Title(参考訳): LaF-GRPO:LLM-as-Follower Rewardを用いたGRPOによる視覚障害者のためのその場ナビゲーションインストラクション生成
- Authors: Yi Zhao, Siqi Wang, Jing Li,
- Abstract要約: 本研究は,視覚障害者(VI)を対象に,視覚障害者(VI)が実際に使用可能な,精密でその場でステップバイステップのナビゲーション命令を作成することに焦点を当てた。
LLM-as-Follower GRPOは、Vision-Language Model (VLM) のトレーニング後の報酬を生成する。
NIG4VIの実験は、定量測定によるLaF-GRPOの有効性を示した。
- 参考スコア(独自算出の注目度): 10.432056588923224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Navigation instruction generation for visually impaired (VI) individuals (NIG-VI) is critical yet relatively underexplored. This study, hence, focuses on producing precise, in-situ, step-by-step navigation instructions that are practically usable by VI users. Concretely, we propose LaF-GRPO (LLM-as-Follower GRPO), where an LLM simulates VI user responses to generate rewards guiding the Vision-Language Model (VLM) post-training. This enhances instruction usability while reducing costly real-world data needs. To facilitate training and testing, we introduce NIG4VI, a 27k-sample open-sourced benchmark. It provides diverse navigation scenarios with accurate spatial coordinates, supporting detailed, open-ended in-situ instruction generation. Experiments on NIG4VI show the effectiveness of LaF-GRPO by quantitative metrics (e.g., Zero-(LaF-GRPO) boosts BLEU +14\%; SFT+(LaF-GRPO) METEOR 0.542 vs. GPT-4o's 0.323) and yields more intuitive, safer instructions. Code and benchmark are available at \href{https://github.com/YiyiyiZhao/NIG4VI}{https://github.com/YiyiyiZhao/NIG4VI}.
- Abstract(参考訳): 視覚障害(VI)者(NIG-VI)に対するナビゲーション・インストラクション・ジェネレーションは極めて重要で、比較的未発見である。
そこで本研究では,VI ユーザが実際に使用可能な高精度なステップバイステップナビゲーション命令の作成に焦点をあてる。
具体的には、LLM-as-Follower GRPO(LaF-GRPO)を提案し、LLMはVIユーザ応答をシミュレートし、Vision-Language Model(VLM)後トレーニングを導く報酬を生成する。
これにより、命令の使いやすさが向上し、コストのかかる実世界のデータニーズが軽減される。
トレーニングとテストを容易にするため,27kサンプルのオープンソースベンチマークであるNIG4VIを紹介した。
正確な空間座標を持つ多様なナビゲーションシナリオを提供し、詳細でオープンなin-situ命令生成をサポートする。
NIG4VIの実験では、定量測定によるLaF-GRPOの有効性(例えば、Zero-(LaF-GRPO)はBLEU + 14\%、SFT+(LaF-GRPO) METEOR 0.542対GPT-4oの0.323)を示し、より直感的でより安全な指示を与える。
コードとベンチマークは \href{https://github.com/YiyyiZhao/NIG4VI}{https://github.com/YiyyiZhao/NIG4VI} で公開されている。
関連論文リスト
- Ground-V: Teaching VLMs to Ground Complex Instructions in Pixels [30.722073025794025]
テキストインストラクションに基づくグラウンドリングにおける5つの重要な現実的課題に対処する。
提案手法は,既存の画素レベルのアノテーションに関連付けられた高品質な命令応答ペアを生成する。
実験結果から, グラウンド-Vで訓練したモデルでは, 多様なグラウンドタスクにまたがる大幅な改善が見られた。
論文 参考訳(メタデータ) (2025-05-20T00:37:19Z) - SURDS: Benchmarking Spatial Understanding and Reasoning in Driving Scenarios with Vision Language Models [15.50826328938879]
視覚言語モデル(VLM)の空間的推論能力を評価するためのベンチマークであるSURDSを紹介する。
nuScenesデータセットに基づいて構築されたSURDSは、41,080の視覚要求回答トレーニングインスタンスと9,250の評価サンプルで構成されている。
本研究では,空間的に接地された報酬信号を利用した強化学習に基づくアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-11-20T08:14:01Z) - DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - To See is to Believe: Prompting GPT-4V for Better Visual Instruction
Tuning [82.34463739289892]
LVIS-Instruct4Vには220Kの視覚的アライメントとコンテキスト認識の命令が含まれている。
LLaVA-InstructをLVIS-Instruct4Vに置き換えることで、最も難しいLMMベンチマークでLLaVAよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-13T18:59:31Z) - GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。
私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文 参考訳(メタデータ) (2023-09-28T16:43:35Z) - Using LLMs to Facilitate Formal Verification of RTL [7.45362896000302]
GPT4 は設計ミスを反映することなく, 欠陥のある RTL に対しても正しい SVA を生成することができることを示す。
我々は、改良されたGPT4ベースのフローを統合して安全性特性を生成することにより、オープンソースのAutoSVAフレームワークを拡張した。
論文 参考訳(メタデータ) (2023-09-18T02:37:43Z) - Towards Building the Federated GPT: Federated Instruction Tuning [66.7900343035733]
本稿では,大規模言語モデル(LLM)の命令チューニングのための学習フレームワークとして,FedIT(Federated Instruction Tuning)を紹介する。
我々は,FedITを用いてクライアントの終端における多種多様な命令セットを活用することにより,ローカル命令のみを限定した集中学習に比べ,LLMの性能を向上させることを実証した。
論文 参考訳(メタデータ) (2023-05-09T17:42:34Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。