論文の概要: Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.07868v1
- Date: Mon, 09 Mar 2026 00:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.332132
- Title: Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models
- Title(参考訳): 入院-VQA:視覚言語モデルにおける意思決定指向型インフォーマルネス評価
- Authors: Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong,
- Abstract要約: ホテルや施設画像に対する視覚的質問応答(VQA)を,視覚言語モデル(VLM)がいかにうまく行うかを検討する。
Informativenessは,まず,画像検索のペアが提供したホスピタリティ関連情報を定量化するための形式的フレームワークとして紹介する。
我々は,重要なユーザ情報のニーズを反映した質問を特別に設計した,様々な施設タイプをカバーする,新たなホスピタリティ特化VQAデータセットを構築した。
- 参考スコア(独自算出の注目度): 0.7838523496515327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Vision-Language Models (VLMs) have demonstrated impressive multimodal understanding in general domains. However, their applicability to decision-oriented domains such as hospitality remains largely unexplored. In this work, we investigate how well VLMs can perform visual question answering (VQA) about hotel and facility images that are central to consumer decision-making. While many existing VQA benchmarks focus on factual correctness, they rarely capture what information users actually find useful. To address this, we first introduce Informativeness as a formal framework to quantify how much hospitality-relevant information an image-question pair provides. Guided by this framework, we construct a new hospitality-specific VQA dataset that covers various facility types, where questions are specifically designed to reflect key user information needs. Using this benchmark, we conduct experiments with several state-of-the-art VLMs, revealing that VLMs are not intrinsically decision-aware-key visual signals remain underutilized, and reliable informativeness reasoning emerges only after modest domain-specific finetuning.
- Abstract(参考訳): VLM(Vision-Language Models)の最近の進歩は、一般領域における印象的なマルチモーダル理解を実証している。
しかし, 客観性などの決定的領域への適用性については, いまだに不明な点が多い。
本研究では,VLMが消費者の意思決定の中心となるホテルや施設のイメージに対して,視覚的質問応答(VQA)をいかに効果的に行うかを検討する。
既存のVQAベンチマークの多くは事実の正しさに重点を置いているが、ユーザーが実際に役に立つと感じる情報を捉えることは滅多にない。
これを解決するために、まずInformativenessを公式なフレームワークとして導入し、画像検索ペアがどれだけのホスピタリティ関連情報を提供するかを定量化する。
このフレームワークによってガイドされた新しいホスピタリティ固有のVQAデータセットを構築し、様々な施設タイプをカバーし、質問は重要なユーザ情報のニーズを反映するように特別に設計されている。
このベンチマークを用いて、VLMは本質的には決定を意識しない視覚信号であり、信頼性の高い情報性推論は、ドメイン固有の微調整後にのみ現れることを明らかにした。
関連論文リスト
- VLMs Guided Interpretable Decision Making for Autonomous Driving [39.29020915361483]
我々は、高度な意思決定タスクにおいて、最先端のオープンソースビジョン言語モデル(VLM)を評価する。
本稿では,VLMの役割を直接決定ジェネレータからセマンティックエンハンサーへシフトさせるアプローチを提案する。
提案手法は,VLMを信頼性・解釈可能なADシステムに統合する上で有望な方向を提供することにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T19:57:51Z) - Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - Right this way: Can VLMs Guide Us to See More to Answer Questions? [11.693356269848517]
質問応答シナリオでは、人間が利用可能な情報が十分かどうかを評価し、必要であれば追加情報を求める。
対照的に、視覚言語モデル(VLM)は、情報の十分性を評価することなく、直接的かつ一発的な応答を生成するのが一般的である。
本研究は,VLMにおける情報アセスメントと取得のギャップを狭める可能性を示し,その性能を人間に近づけるものである。
論文 参考訳(メタデータ) (2024-11-01T06:43:54Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - ERVQA: A Dataset to Benchmark the Readiness of Large Vision Language Models in Hospital Environments [8.407270193113616]
緊急室視覚質問応答(ERVQA)データセットについて, 多様な緊急室シナリオをカバーする画像, 質問, 回答> トリプレットについて紹介する。
従来のVQAメトリクスを使用して、最先端のオープンソースおよびクローズドなLVLMをベンチマークする。
以上の結果から,ERVQAデータセットは非常に複雑なタスクを示し,専門的なドメイン固有のソリューションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-10-08T23:14:24Z) - Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering [47.668572102657684]
本稿では,視覚言語モデル(VLM)の能力を高めるために,LLM(Large Language Models)の拡張的知識を活用することで,新しいマルチエージェントコラボレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。
我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。
発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。