論文の概要: What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.06165v1
- Date: Wed, 07 Jan 2026 02:33:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.632121
- Title: What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models
- Title(参考訳): ユーザーが残した情報:未指定のクエリはビジョンランゲージモデルに制限される
- Authors: Dasol Choi, Guijin Son, Hanwool Lee, Minhyuk Kim, Hyunwoo Ko, Teabin Lim, Ahn Eungyeol, Jungwhan Kim, Seunghyeok Hong, Youngsook Song,
- Abstract要約: 韓国のオンラインコミュニティから,実世界の653の視覚的質問のベンチマークであるHAERAE-Visionを紹介した。
最先端モデル (GPT-5, Gemini 2.5 Pro) でさえも、元のクエリでは50%以下であることがわかった。
- 参考スコア(独自算出の注目度): 10.883552856100684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current vision-language benchmarks predominantly feature well-structured questions with clear, explicit prompts. However, real user queries are often informal and underspecified. Users naturally leave much unsaid, relying on images to convey context. We introduce HAERAE-Vision, a benchmark of 653 real-world visual questions from Korean online communities (0.76% survival from 86K candidates), each paired with an explicit rewrite, yielding 1,306 query variants in total. Evaluating 39 VLMs, we find that even state-of-the-art models (GPT-5, Gemini 2.5 Pro) achieve under 50% on the original queries. Crucially, query explicitation alone yields 8 to 22 point improvements, with smaller models benefiting most. We further show that even with web search, under-specified queries underperform explicit queries without search, revealing that current retrieval cannot compensate for what users leave unsaid. Our findings demonstrate that a substantial portion of VLM difficulty stem from natural query under-specification instead of model capability, highlighting a critical gap between benchmark evaluation and real-world deployment.
- Abstract(参考訳): 現在の視覚言語ベンチマークは、よく構造化された質問を明確で明示的なプロンプトで特徴付けている。
しかし、実際のユーザクエリはしばしば非公式で仕様が不明確である。
ユーザは当然、コンテキストを伝えるために画像に依存して、あまり話さないままだ。
韓国のオンラインコミュニティから653の現実世界の視覚的質問(86K候補から0.76%生存)のベンチマークであるHAERAE-Visionを紹介した。
39のVLMを評価すると、GPT-5やGemini 2.5 Proといった最先端モデルでさえ、元のクエリに対して50%以下で達成できることがわかった。
重要な点として、クエリの明示だけで8から22ポイント改善され、より小さなモデルが最も恩恵を受ける。
さらに、Web検索においても、未特定クエリが検索なしで明示的なクエリを過小評価していることが示され、現在の検索はユーザが残したものを補うことができないことが明らかになった。
以上の結果から, VLMの難易度の大部分は, モデル機能ではなく, 自然なクエリアンダーセグメンテーションによるものであり, ベンチマーク評価と実世界の展開の間に重要なギャップがあることが示唆された。
関連論文リスト
- WikiMixQA: A Multimodal Benchmark for Question Answering over Tables and Charts [14.966795545558474]
本稿では,4000ページのウィキペディアページから抽出したテーブルとチャートの相互モーダル推論を評価するベンチマークであるWikiMixQAを紹介する。
本研究では,12種類の最先端の視覚言語モデルを評価し,プロプライエタリなモデルでは直接コンテキストで70%の精度が得られたが,長い文書からの検索が必要な場合,その性能は著しく低下することを示した。
論文 参考訳(メタデータ) (2025-06-18T16:09:18Z) - MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query [91.01970848241075]
MERITは、インターリーブされたマルチ条件セマンティック検索のための最初の多言語データセットである。
本稿では,多条件セマンティック検索のための最初の多言語データセットであるMERITを紹介する。
論文 参考訳(メタデータ) (2025-06-03T17:59:14Z) - ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [48.99485386990197]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。
次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。
人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文 参考訳(メタデータ) (2025-05-19T17:59:27Z) - None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks [0.9831489366502301]
本稿では,これまで見られたトークンや概念から正解を完全に解離する,複数選択質問に対する一般的な変分手法を提案する。
この手法を用いて、英語とスペイン語で利用可能な2つのデータセットに基づいて、最先端のプロプライエタリおよびオープンソースLLMを評価する。
その結果, MMLUでは平均57%, UNED-Access 2024では50%の精度低下がみられた。
論文 参考訳(メタデータ) (2025-02-18T14:32:44Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。