論文の概要: Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning
- arxiv url: http://arxiv.org/abs/2507.16746v1
- Date: Tue, 22 Jul 2025 16:35:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.206935
- Title: Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning
- Title(参考訳): Zebra-CoT: インターリーブビジョン言語推論のためのデータセット
- Authors: Ang Li, Charles Wang, Kaiyu Yue, Zikui Cai, Ollie Liu, Deqing Fu, Peng Guo, Wang Bill Zhu, Vatsal Sharan, Robin Jia, Willie Neiswanger, Furong Huang, Tom Goldstein, Micah Goldblum,
- Abstract要約: 我々は182,384サンプルの多種多様な大規模データセットであるtextbfZebra-CoT$を紹介した。
スケッチや視覚的推論が特に自然なタスクの4つのカテゴリに注目します。
微調整されたベーゲル7Bは高品質な視覚的推論連鎖を生成するモデルを生成する。
- 参考スコア(独自算出の注目度): 105.25503508433758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans often use visual aids, for example diagrams or sketches, when solving complex problems. Training multimodal models to do the same, known as Visual Chain of Thought (Visual CoT), is challenging due to: (1) poor off-the-shelf visual CoT performance, which hinders reinforcement learning, and (2) the lack of high-quality visual CoT training data. We introduce $\textbf{Zebra-CoT}$, a diverse large-scale dataset with 182,384 samples, containing logically coherent interleaved text-image reasoning traces. We focus on four categories of tasks where sketching or visual reasoning is especially natural, spanning scientific questions such as geometry, physics, and algorithms; 2D visual reasoning tasks like visual search and jigsaw puzzles; 3D reasoning tasks including 3D multi-hop inference, embodied and robot planning; visual logic problems and strategic games like chess. Fine-tuning the Anole-7B model on the Zebra-CoT training corpus results in an improvement of +12% in our test-set accuracy and yields up to +13% performance gain on standard VLM benchmark evaluations. Fine-tuning Bagel-7B yields a model that generates high-quality interleaved visual reasoning chains, underscoring Zebra-CoT's effectiveness for developing multimodal reasoning abilities. We open-source our dataset and models to support development and evaluation of visual CoT.
- Abstract(参考訳): 人間は複雑な問題を解決する際に、図やスケッチのような視覚補助具を使うことが多い。
同じことをするマルチモーダルモデル(Visual Chain of Thought (Visual CoT)として知られる)のトレーニングは、(1)強化学習を妨げる市販の視覚的CoTパフォーマンスの貧弱、(2)高品質な視覚的CoTトレーニングデータが欠如していることから難しい。
我々は182,384サンプルの多種多様な大規模データセットである$\textbf{Zebra-CoT}$を紹介した。
我々は、スケッチや視覚的推論が特に自然である4つのタスク、幾何学、物理学、アルゴリズムなどの科学的問題、視覚探索やジグソーパズルのような2次元視覚的推論タスク、3Dマルチホップ推論、具体化、ロボット計画、視覚論理問題、チェスのような戦略ゲームに焦点をあてる。
The Anole-7B model on the Zebra-CoT trainingcorpus was a improve of +12% in our test-set accuracy and yield to up +13% performance gain on standard VLM benchmark evaluations。
微調整Bagel-7Bは、高品質なインターリーブ付き視覚推論チェーンを生成するモデルを生み出し、Zebra-CoTがマルチモーダル推論能力の開発に有効であることを示す。
我々は,視覚的CoTの開発と評価を支援するデータセットとモデルをオープンソース化した。
関連論文リスト
- Oedipus and the Sphinx: Benchmarking and Improving Visual Language Models for Complex Graphic Reasoning [14.984593408786045]
図形推論タスクにおける視覚言語モデル(VLM)の性能を評価するためにReasonBenchを提案する。
ReasonBenchには、現実世界のインテリジェンステストからの1,613の質問が含まれている。
我々は11の主流VLMをベンチマークし、現在のモデルの大幅な制限を明らかにした。
論文 参考訳(メタデータ) (2025-08-01T05:12:38Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - CAUSAL3D: A Comprehensive Benchmark for Causal Learning from Visual Data [10.435321637846142]
我々は、構造化されたデータ(テーブル)と対応する視覚表現(画像)を統合する新しいベンチマークであるtextsctextbfCausal3Dを導入し、因果推論を評価する。
Causal3Dは、多様な因果関係、ビュー、背景をキャプチャする19の3Dシーンデータセットで構成されている。
論文 参考訳(メタデータ) (2025-03-06T03:40:01Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles [29.214813685163218]
OpenAIのo-[n]シリーズ(o1、o3、o4-mini)のリリースは、大規模言語モデルにおける重要なパラダイムシフトである。
GPT-[n] および o-[n] 級数モデルの進化を、挑戦的なマルチモーダルパズル上で追跡する。
以上の結果から, o-[n] 級数,特に o3 や o4-mini のような後続の反復は GPT-[n] 級数を著しく上回り,マルチモーダル推論において高いスケーラビリティを示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T05:47:04Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。