論文の概要: See2Refine: Vision-Language Feedback Improves LLM-Based eHMI Action Designers
- arxiv url: http://arxiv.org/abs/2602.02063v1
- Date: Mon, 02 Feb 2026 13:03:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.158623
- Title: See2Refine: Vision-Language Feedback Improves LLM-Based eHMI Action Designers
- Title(参考訳): See2Refine: LLMベースのeHMIアクションデザイナを改良したビジョンランゲージフィードバック
- Authors: Ding Xia, Xinyue Gui, Mark Colley, Fan Gao, Zhongyi Zhou, Dongyuan Li, Renhe Jiang, Takeo Igarashi,
- Abstract要約: 視覚言語モデル(VLM)の知覚的評価を自動視覚フィードバックとして利用し,eHMIアクションデザイナを改良する,自由でクローズドループなフレームワークを提案する。
我々は3つのeHMIモード(光バー、目、腕)と複数のLLMモデルサイズでフレームワークを評価した。
- 参考スコア(独自算出の注目度): 44.69878809568278
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automated vehicles lack natural communication channels with other road users, making external Human-Machine Interfaces (eHMIs) essential for conveying intent and maintaining trust in shared environments. However, most eHMI studies rely on developer-crafted message-action pairs, which are difficult to adapt to diverse and dynamic traffic contexts. A promising alternative is to use Large Language Models (LLMs) as action designers that generate context-conditioned eHMI actions, yet such designers lack perceptual verification and typically depend on fixed prompts or costly human-annotated feedback for improvement. We present See2Refine, a human-free, closed-loop framework that uses vision-language model (VLM) perceptual evaluation as automated visual feedback to improve an LLM-based eHMI action designer. Given a driving context and a candidate eHMI action, the VLM evaluates the perceived appropriateness of the action, and this feedback is used to iteratively revise the designer's outputs, enabling systematic refinement without human supervision. We evaluate our framework across three eHMI modalities (lightbar, eyes, and arm) and multiple LLM model sizes. Across settings, our framework consistently outperforms prompt-only LLM designers and manually specified baselines in both VLM-based metrics and human-subject evaluations. Results further indicate that the improvements generalize across modalities and that VLM evaluations are well aligned with human preferences, supporting the robustness and effectiveness of See2Refine for scalable action design.
- Abstract(参考訳): 自動車両は、他の道路利用者との自然なコミュニケーションチャネルが欠如しており、外部のヒューマン・マシン・インタフェース(eHMI)は、意図を伝達し、共有環境における信頼を維持するのに不可欠である。
しかし、ほとんどのeHMI研究は、多様な動的トラフィックコンテキストに適応することが難しい、開発者によって作成されたメッセージ-アクションペアに依存している。
有望な代替手段は、コンテキスト条件付きeHMIアクションを生成するアクションデザイナとしてLarge Language Models (LLMs)を使用することであるが、そのようなデザイナは知覚的検証が欠如しており、通常、修正のために固定プロンプトやコストがかかる人為的なフィードバックに依存している。
視覚言語モデル(VLM)の知覚的評価を自動視覚フィードバックとして利用して,LLMベースのeHMIアクションデザイナを改良する,人間の自由なクローズドループフレームワークであるSeries2Refineを提案する。
運転状況と候補 eHMI アクションが与えられた後、VLM は行動の適切性を評価し、このフィードバックを用いて設計者のアウトプットを反復的に修正し、人間の監督なしに体系的な改善を可能にする。
我々は3つのeHMIモード(光バー、目、腕)と複数のLLMモデルサイズでフレームワークを評価した。
設定全体にわたって、当社のフレームワークは、プロンプトのみのLCMデザイナと、VLMベースのメトリクスとヒューマンオブジェクト評価の両方において、手動で規定されたベースラインを一貫して上回ります。
さらに,VLM評価は人間の嗜好に順応し,スケーラブルなアクション設計のためのSee2Refineの堅牢性と有効性をサポートすることが示唆された。
関連論文リスト
- VLN-MME: Diagnosing MLLMs as Language-guided Visual Navigation agents [12.383467162169703]
ゼロショットエージェントとしてMLLMを探索するための統一的評価フレームワークを提案する。
高度にモジュール化されたアクセシブルな設計で評価を単純化する。
我々は,CoT推論と自己言語によるベースラインエージェントの強化が,予期せぬ性能低下につながることを観察した。
論文 参考訳(メタデータ) (2025-12-31T13:21:21Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。