論文の概要: IRIS: Intent Resolution via Inference-time Saccades for Open-Ended VQA in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.16138v1
- Date: Wed, 18 Feb 2026 02:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.489858
- Title: IRIS: Intent Resolution via Inference-time Saccades for Open-Ended VQA in Large Vision-Language Models
- Title(参考訳): IRIS:大規模視覚言語モデルにおけるオープンエンディングVQAのための推論時サッケードによるインテントレゾリューション
- Authors: Parsa Madinei, Srijita Karmakar, Russell Cohen Hoffing, Felix Gervitz, Miguel P. Eckstein,
- Abstract要約: オープンエンドVQAにおけるあいまいさを解決するために,視線追跡データをリアルタイムで利用するトレーニングフリーのアプローチであるIRISを導入する。
500のユニークな画像検索ペアを用いた総合的なユーザスタディを通じて、参加者が口頭で質問を始める時間に最も近い修正が、大きなVLMにおける曖昧さの最も有益であることを示す。
我々は、視線移動データを用いた新しいベンチマークデータセットを、あいまいなVQA、新しいリアルタイム対話プロトコル、評価スイートとしてリリースする。
- 参考スコア(独自算出の注目度): 2.3699325153255404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce IRIS (Intent Resolution via Inference-time Saccades), a novel training-free approach that uses eye-tracking data in real-time to resolve ambiguity in open-ended VQA. Through a comprehensive user study with 500 unique image-question pairs, we demonstrate that fixations closest to the time participants start verbally asking their questions are the most informative for disambiguation in Large VLMs, more than doubling the accuracy of responses on ambiguous questions (from 35.2% to 77.2%) while maintaining performance on unambiguous queries. We evaluate our approach across state-of-the-art VLMs, showing consistent improvements when gaze data is incorporated in ambiguous image-question pairs, regardless of architectural differences. We release a new benchmark dataset to use eye movement data for disambiguated VQA, a novel real-time interactive protocol, and an evaluation suite.
- Abstract(参考訳): IRIS(Intent Resolution via Inference-time Saccades)は、視線追跡データをリアルタイムで利用し、オープンエンドVQAの曖昧さを解消する新しいトレーニングフリーアプローチである。
500のユニークな画像検索ペアを用いた総合的なユーザスタディを通じて、参加者が口頭で質問する時間に最も近い修正が、あいまいな質問に対する回答の正確さ(35.2%から77.2%)を2倍にし、不明瞭な質問のパフォーマンスを維持しながら、大きなVLMにおける不明瞭さに対して最も有益であることを示す。
我々は,現状のVLMに対するアプローチを評価し,アーキテクチャの違いにかかわらず,視線データを曖昧な画像探索ペアに組み込んだ場合,一貫した改善を示す。
我々は、視線移動データを用いた新しいベンチマークデータセットを、あいまいなVQA、新しいリアルタイム対話プロトコル、評価スイートとしてリリースする。
関連論文リスト
- What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models [10.883552856100684]
韓国のオンラインコミュニティから,実世界の653の視覚的質問のベンチマークであるHAERAE-Visionを紹介した。
最先端モデル (GPT-5, Gemini 2.5 Pro) でさえも、元のクエリでは50%以下であることがわかった。
論文 参考訳(メタデータ) (2026-01-07T02:33:03Z) - Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [77.96693360763925]
Video SimpleQAは、ビデオコンテキストにおける事実性評価に適した最初の包括的なベンチマークである。
我々の研究は、既存のビデオベンチマークとは以下の重要な特徴によって異なる: 知識: ビデオの明示的な物語を超えた外部知識の統合を要求する。
短い形式の決定的な答え: 回答は、最小のスコアリング分散を持つ短いフォーマットで、曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - Right this way: Can VLMs Guide Us to See More to Answer Questions? [11.693356269848517]
質問応答シナリオでは、人間が利用可能な情報が十分かどうかを評価し、必要であれば追加情報を求める。
対照的に、視覚言語モデル(VLM)は、情報の十分性を評価することなく、直接的かつ一発的な応答を生成するのが一般的である。
本研究は,VLMにおける情報アセスメントと取得のギャップを狭める可能性を示し,その性能を人間に近づけるものである。
論文 参考訳(メタデータ) (2024-11-01T06:43:54Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - The curse of language biases in remote sensing VQA: the role of spatial
attributes, language diversity, and the need for clear evaluation [32.7348470366509]
RSVQAの目的は、リモートセンシング画像に関する自然言語で定式化された質問に答えることである。
言語バイアスの問題はしばしばリモートセンシングコミュニティで見過ごされている。
本研究の目的は,RSVQAにおける言語バイアスの問題を3重解析戦略を用いて強調することである。
論文 参考訳(メタデータ) (2023-11-28T13:45:15Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering [6.798129852396113]
本稿では,ゼロおよび少数ショットの視覚質問応答(VQA)性能を向上させる効果的なプロンプト手法について検討する。
特定のテンプレートがVQAの結果に大きく影響し,戦略的テンプレート選択の必要性が強調される。
自由形式のオープンエンドVQA応答を評価する際の課題を軽減するために,簡単なLCM誘導前処理技術を導入する。
論文 参考訳(メタデータ) (2023-06-16T17:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。