論文の概要: VisChainBench: A Benchmark for Multi-Turn, Multi-Image Visual Reasoning Beyond Language Priors
- arxiv url: http://arxiv.org/abs/2512.06759v1
- Date: Sun, 07 Dec 2025 09:48:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.513093
- Title: VisChainBench: A Benchmark for Multi-Turn, Multi-Image Visual Reasoning Beyond Language Priors
- Title(参考訳): VisChainBench: 言語プリミティブを超えたマルチツーリング、マルチイメージビジュアル推論のためのベンチマーク
- Authors: Wenbo Lyu, Yingjun Du, Jinglin Zhao, Xianton Zhen, Ling Shao,
- Abstract要約: VisChainBenchは、LVLM(Large Vision-Language Models)を厳格に評価するために設計されたベンチマークである。
3つの異なる領域(例えば、日々のシナリオ、エンジニアリングのトラブルシューティング)にわたる20,000以上のイメージにまたがる1,457のタスクを含んでいる。
ユニークなことに、ベンチマークはマルチエージェント生成パイプラインを使用して構築されており、高い視覚的多様性と制御された言語バイアスを保証する。
- 参考スコア(独自算出の注目度): 32.4515119002324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding multi-image, multi-turn scenarios is a critical yet underexplored capability for Large Vision-Language Models (LVLMs). Existing benchmarks predominantly focus on static or horizontal comparisons -- e.g., spotting visual differences or assessing appropriateness -- while relying heavily on language cues. Such settings overlook progressive, context-dependent reasoning and the challenge of visual-to-visual inference. To bridge this gap, we present VisChainBench, a large-scale benchmark designed to rigorously evaluate LVLMs' ability to perform multi-step visual reasoning across sequential, interdependent tasks with minimal language guidance. VisChainBench contains 1,457 tasks spanning over 20,000 images across three diverse domains (e.g., daily scenarios, engineering troubleshooting), structured to mimic real-world decision-making processes. Uniquely, the benchmark is constructed using a multi-agent generation pipeline, ensuring high visual diversity and controlled language bias. All the benchmark data and code for benchmark construction are available for viewing and download via following Link: https://huggingface.co/datasets/eyehole/VisChainBench
- Abstract(参考訳): マルチイメージのマルチターンシナリオを理解することは、LVLM(Large Vision-Language Models)にとって、重要で未探索の能力である。
既存のベンチマークでは、静的または水平な比較(例えば、視覚的な違いの発見や適切性の評価など)に重点を置いている。
このような設定は、プログレッシブで文脈に依存した推論と視覚的・視覚的推論の課題を見落としている。
このギャップを埋めるために、我々はLVLMsが言語指導を最小限に抑え、逐次的かつ相互依存的なタスクに対して多段階の視覚的推論を行う能力を厳格に評価するために設計された大規模なベンチマークVisChainBenchを紹介した。
VisChainBenchには3つの異なるドメイン(例えば、日々のシナリオ、エンジニアリングのトラブルシューティング)にわたる20,000以上のイメージにまたがる1,457のタスクが含まれている。
ユニークなことに、ベンチマークはマルチエージェント生成パイプラインを使用して構築されており、高い視覚的多様性と制御された言語バイアスを保証する。
ベンチマーク構築のためのベンチマークデータとコードは、以下のリンクを通じて閲覧およびダウンロードすることができる。
関連論文リスト
- A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。
既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文 参考訳(メタデータ) (2024-09-19T17:58:16Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。