論文の概要: EasyARC: Evaluating Vision Language Models on True Visual Reasoning
- arxiv url: http://arxiv.org/abs/2506.11595v1
- Date: Fri, 13 Jun 2025 09:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.726885
- Title: EasyARC: Evaluating Vision Language Models on True Visual Reasoning
- Title(参考訳): EasyARC:真のビジュアル推論に基づくビジョン言語モデルの評価
- Authors: Mert Unsal, Aylin Akkus,
- Abstract要約: 本稿では,マルチイメージ,マルチステップ推論,自己補正を必要とする視覚言語ベンチマークであるEasyARCを紹介する。
EasyARCは手続き的に生成され、完全に検証可能で、スケーラブルであり、強化学習パイプラインに最適である。
我々は最先端のビジョン言語モデルをベンチマークし、その失敗モードを分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building on recent advances in language-based reasoning models, we explore multimodal reasoning that integrates vision and text. Existing multimodal benchmarks primarily test visual extraction combined with text-based reasoning, lacking true visual reasoning with more complex interactions between vision and language. Inspired by the ARC challenge, we introduce EasyARC, a vision-language benchmark requiring multi-image, multi-step reasoning, and self-correction. EasyARC is procedurally generated, fully verifiable, and scalable, making it ideal for reinforcement learning (RL) pipelines. The generators incorporate progressive difficulty levels, enabling structured evaluation across task types and complexities. We benchmark state-of-the-art vision-language models and analyze their failure modes. We argue that EasyARC sets a new standard for evaluating true reasoning and test-time scaling capabilities in vision-language models. We open-source our benchmark dataset and evaluation code.
- Abstract(参考訳): 言語に基づく推論モデルの最近の進歩に基づき、視覚とテキストを統合したマルチモーダル推論を探索する。
既存のマルチモーダルベンチマークは、主にテキストベースの推論と組み合わせて視覚的抽出をテストし、視覚と言語の間のより複雑な相互作用を伴う真の視覚的推論を欠いている。
ARCチャレンジに触発されて,マルチイメージ,マルチステップ推論,自己補正を必要とする視覚ベンチマークであるEasyARCを紹介した。
EasyARCは手続き的に生成され、完全に検証可能で、拡張性があり、強化学習(RL)パイプラインに最適である。
ジェネレータはプログレッシブな難易度を取り入れ、タスクタイプや複雑度をまたいで構造化された評価を可能にする。
我々は最先端のビジョン言語モデルをベンチマークし、その失敗モードを分析する。
我々は、EasyARCが視覚言語モデルにおける真の推論とテスト時間スケーリング能力を評価するための新しい標準を定めていると論じる。
ベンチマークデータセットと評価コードをオープンソースにしています。
関連論文リスト
- Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。
マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Enhancing Advanced Visual Reasoning Ability of Large Language Models [20.32900494896848]
VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論のための新しいベンチマークを引き起こした。
我々はCVR-LLM(Complex Visual Reasoning Large Language Models)を提案する。
提案手法は,反復的自己修正ループを用いて,画像の詳細なコンテキスト認識記述に変換する。
また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
論文 参考訳(メタデータ) (2024-09-21T02:10:19Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter [21.45490901191175]
PaLM2-VAdapterは、視覚言語アダプタとして徐々に整列した言語モデルを採用している。
提案手法は、最先端の大規模視覚言語モデルよりも3070%少ないパラメータでこれらの進歩を実現する。
論文 参考訳(メタデータ) (2024-02-16T18:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。