論文の概要: VisChainBench: A Benchmark for Multi-Turn, Multi-Image Visual Reasoning Beyond Language Priors
- arxiv url: http://arxiv.org/abs/2512.06759v1
- Date: Sun, 07 Dec 2025 09:48:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.513093
- Title: VisChainBench: A Benchmark for Multi-Turn, Multi-Image Visual Reasoning Beyond Language Priors
- Title(参考訳): VisChainBench: 言語プリミティブを超えたマルチツーリング、マルチイメージビジュアル推論のためのベンチマーク
- Authors: Wenbo Lyu, Yingjun Du, Jinglin Zhao, Xianton Zhen, Ling Shao,
- Abstract要約: VisChainBenchは、LVLM(Large Vision-Language Models)を厳格に評価するために設計されたベンチマークである。
3つの異なる領域(例えば、日々のシナリオ、エンジニアリングのトラブルシューティング)にわたる20,000以上のイメージにまたがる1,457のタスクを含んでいる。
ユニークなことに、ベンチマークはマルチエージェント生成パイプラインを使用して構築されており、高い視覚的多様性と制御された言語バイアスを保証する。
- 参考スコア(独自算出の注目度): 32.4515119002324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding multi-image, multi-turn scenarios is a critical yet underexplored capability for Large Vision-Language Models (LVLMs). Existing benchmarks predominantly focus on static or horizontal comparisons -- e.g., spotting visual differences or assessing appropriateness -- while relying heavily on language cues. Such settings overlook progressive, context-dependent reasoning and the challenge of visual-to-visual inference. To bridge this gap, we present VisChainBench, a large-scale benchmark designed to rigorously evaluate LVLMs' ability to perform multi-step visual reasoning across sequential, interdependent tasks with minimal language guidance. VisChainBench contains 1,457 tasks spanning over 20,000 images across three diverse domains (e.g., daily scenarios, engineering troubleshooting), structured to mimic real-world decision-making processes. Uniquely, the benchmark is constructed using a multi-agent generation pipeline, ensuring high visual diversity and controlled language bias. All the benchmark data and code for benchmark construction are available for viewing and download via following Link: https://huggingface.co/datasets/eyehole/VisChainBench
- Abstract(参考訳): マルチイメージのマルチターンシナリオを理解することは、LVLM(Large Vision-Language Models)にとって、重要で未探索の能力である。
既存のベンチマークでは、静的または水平な比較(例えば、視覚的な違いの発見や適切性の評価など)に重点を置いている。
このような設定は、プログレッシブで文脈に依存した推論と視覚的・視覚的推論の課題を見落としている。
このギャップを埋めるために、我々はLVLMsが言語指導を最小限に抑え、逐次的かつ相互依存的なタスクに対して多段階の視覚的推論を行う能力を厳格に評価するために設計された大規模なベンチマークVisChainBenchを紹介した。
VisChainBenchには3つの異なるドメイン(例えば、日々のシナリオ、エンジニアリングのトラブルシューティング)にわたる20,000以上のイメージにまたがる1,457のタスクが含まれている。
ユニークなことに、ベンチマークはマルチエージェント生成パイプラインを使用して構築されており、高い視覚的多様性と制御された言語バイアスを保証する。
ベンチマーク構築のためのベンチマークデータとコードは、以下のリンクを通じて閲覧およびダウンロードすることができる。
関連論文リスト
- VisualTrans: A Benchmark for Real-World Visual Transformation Reasoning [10.497961559068493]
ビジュアルトランスフォーメーション推論(VTR)は、知的エージェントが動的シーンを理解するための重要な認知能力である。
既存のベンチマークは、sim-to-realギャップ、タスクの複雑さの制限、不完全な推論カバレッジに悩まされている。
VisualTransは、現実世界の人間とオブジェクトのインタラクションシナリオにおいて、VTR用に特別に設計された最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2025-08-06T03:07:05Z) - Multimodal Referring Segmentation: A Survey [93.24051010753817]
マルチモーダル参照セグメンテーション(Multimodal reference segmentation)は、テキストやオーディオフォーマットでの参照表現に基づいて、画像、ビデオ、および3Dシーンなどのターゲットオブジェクトを視覚シーンに分割することを目的としている。
過去10年間で、畳み込みニューラルネットワーク、トランスフォーマー、および大規模言語モデルの進歩によって、マルチモーダルコミュニティにおいて大きな注目を集めてきた。
論文 参考訳(メタデータ) (2025-08-01T02:14:00Z) - PM4Bench: A Parallel Multilingual Multi-Modal Multi-task Benchmark for Large Vision Language Model [75.98106427999411]
PM4Benchは,大規模視覚言語モデルのための並列多言語マルチモーダルマルチタスクベンチマークである。
10言語にまたがる並列コーパス設計を備えており、公平で正確な言語間比較を可能にする。
これには、テキストとクエリがイメージに埋め込まれたビジョン設定が含まれており、LVLMは現実世界のアプリケーションと同時に"見る"、"読む"、"考える"必要がある。
論文 参考訳(メタデータ) (2025-03-24T09:38:37Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。
既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文 参考訳(メタデータ) (2024-09-19T17:58:16Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。