論文の概要: ISO-Bench: Benchmarking Multimodal Causal Reasoning in Visual-Language Models through Procedural Plans
- arxiv url: http://arxiv.org/abs/2507.23135v1
- Date: Wed, 30 Jul 2025 22:30:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.826026
- Title: ISO-Bench: Benchmarking Multimodal Causal Reasoning in Visual-Language Models through Procedural Plans
- Title(参考訳): ISO-Bench: 手続き計画による視覚言語モデルにおけるマルチモーダル因果推論のベンチマーク
- Authors: Ananya Sadana, Yash Kumar Lal, Jiawei Zhou,
- Abstract要約: 視覚的観察と手続き的テキスト間の因果関係をモデルが推測できるかどうかを評価するためのベンチマークであるISO-Benchを紹介する。
10個のフロンティア視覚言語モデルの評価結果から, 性能の低下が示唆された。
- 参考スコア(独自算出の注目度): 10.026145953509246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding causal relationships across modalities is a core challenge for multimodal models operating in real-world environments. We introduce ISO-Bench, a benchmark for evaluating whether models can infer causal dependencies between visual observations and procedural text. Each example presents an image of a task step and a text snippet from a plan, with the goal of deciding whether the visual step occurs before or after the referenced text step. Evaluation results on ten frontier vision-language models show underwhelming performance: the best zero-shot F1 is only 0.57, and chain-of-thought reasoning yields only modest gains (up to 0.62 F1), largely behind humans (0.98 F1). Our analysis further highlights concrete directions for improving causal understanding in multimodal models.
- Abstract(参考訳): モダリティ間の因果関係を理解することは、実環境で動作するマルチモーダルモデルにとって重要な課題である。
視覚的観察と手続き的テキスト間の因果関係をモデルが推測できるかどうかを評価するためのベンチマークであるISO-Benchを紹介する。
各例は、参照されたテキストステップの前後で視覚的なステップが発生するかどうかを判定する目的で、計画からタスクステップとテキストスニペットの画像を表示する。
最強のゼロショットF1はわずか0.57で、チェーン・オブ・シークレットの推論はわずかに利得(最大0.62F1)で、大部分は人間に遅れている(0.98F1)。
本分析は,マルチモーダルモデルにおける因果的理解を改善するための具体的な方向性をさらに強調する。
関連論文リスト
- R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization [26.757458496178437]
視覚知覚と深い推論のギャップを埋めるために設計されたマルチモーダル推論モデルであるR1-Onevisionを紹介する。
我々はR1-Onevisionデータセットを構築し、多様なドメインにまたがる詳細かつステップバイステップのマルチモーダル推論アノテーションを提供する。
先進的推論を育成するために,教師付き微調整と強化学習によりR1-Onevisionモデルをさらに発展させる。
実験結果から,R1-OnevisionはGPT-4oやQwen2.5-VLなど,最先端のモデルよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-03-13T17:56:05Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - LLaVA-CoT: Let Vision Language Models Reason Step-by-Step [34.32147663809707]
LLaVA-CoTは、自律的な多段階推論を行うために設計された大型ビジョンランゲージモデル(VLM)である。
チェーン・オブ・シークレットのプロンプトとは異なり、LLaVA-CoTは独立に要約、視覚的解釈、論理的推論、結論生成の逐次的な段階に関与する。
100kのトレーニングサンプルとテストタイムのスケーリングだけで、LLaVA-CoTは、幅広いマルチモーダル推論ベンチマークでベースモデルを9.4%上回っている。
論文 参考訳(メタデータ) (2024-11-15T18:58:31Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。
既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文 参考訳(メタデータ) (2024-09-19T17:58:16Z) - Argumentative Stance Prediction: An Exploratory Study on Multimodality
and Few-Shot Learning [0.0]
ツイートにおける姿勢予測のための画像の必要性を評価する。
私たちの研究は、微調整されたテキストベースの言語モデルの統合を示唆している。
その結果,画像内容が自然言語として要約される場合には,マルチモーダルモデルの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-10-11T00:18:29Z) - Open-vocabulary Semantic Segmentation with Frozen Vision-Language Models [39.479912987123214]
自己指導型学習は、幅広い視覚的・言語的理解タスクを解く顕著な能力を示した。
Fusionerは軽量なトランスフォーマーベースの融合モジュールで、凍結した視覚表現と言語概念をペアリングする。
提案手法は,任意の視覚モデルと言語モデル,あるいはユニモーダルデータのコーパス上で事前学習したモデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-10-27T02:57:26Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。