論文の概要: CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.12932v2
- Date: Sat, 15 Feb 2025 06:32:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:05:57.168972
- Title: CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models
- Title(参考訳): CoMT:大規模視覚言語モデルに基づくマルチモーダル思考の連鎖のための新しいベンチマーク
- Authors: Zihui Cheng, Qiguang Chen, Jin Zhang, Hao Fei, Xiaocheng Feng, Wanxiang Che, Min Li, Libo Qin,
- Abstract要約: Chain of Multi-modal Thought (CoMT)ベンチマークは、視覚操作を本質的に統合する人間のような推論を模倣することを目的としている。
我々は様々なLVLMと戦略をCoMT上で評価し、現在のアプローチの能力と限界に関する重要な洞察を明らかにした。
- 参考スコア(独自算出の注目度): 60.08485416687596
- License:
- Abstract: Large Vision-Language Models (LVLMs) have recently demonstrated amazing success in multi-modal tasks, including advancements in Multi-modal Chain-of-Thought (MCoT) reasoning. Despite these successes, current benchmarks still follow a traditional paradigm with multi-modal input and text-modal output, which leads to significant drawbacks such as missing visual operations and vague expressions. Motivated by this, we introduce a novel Chain of Multi-modal Thought (CoMT) benchmark to address these limitations. Different from the traditional MCoT benchmark, CoMT requires both multi-modal input and multi-modal reasoning output, aiming to mimic human-like reasoning that inherently integrates visual operation. Specifically, CoMT consists of four categories: (1) Visual Creation, (2) Visual Deletion, (3) Visual Update, and (4) Visual Selection to comprehensively explore complex visual operations and concise expression in real scenarios. We evaluate various LVLMs and strategies on CoMT, revealing some key insights into the capabilities and limitations of the current approaches. We hope that CoMT can inspire more research on introducing multi-modal generation into the reasoning process.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、MCoT(Multi-modal Chain-of-Thought)推論の進歩を含む、マルチモーダルタスクにおいて驚くべき成功を収めた。
これらの成功にもかかわらず、現在のベンチマークは、マルチモーダルな入力とテキストモーダルな出力を持つ伝統的なパラダイムに従っており、視覚的操作の欠如やあいまいな表現のような大きな欠点をもたらしている。
そこで我々は,これらの制約に対処するために,新しいマルチモーダル思考の連鎖 (CoMT) ベンチマークを導入する。
従来のMCoTベンチマークとは異なり、CoMTは視覚操作を本質的に統合する人間のような推論を模倣することを目的として、マルチモーダル入力とマルチモーダル推論出力の両方を必要とする。
特に、CoMTは、(1)視覚的創造、(2)視覚的削除、(3)視覚的更新、(4)視覚的選択の4つのカテゴリから構成され、複雑な視覚的操作と実際のシナリオにおける簡潔な表現を包括的に探索する。
我々は様々なLVLMと戦略をCoMT上で評価し、現在のアプローチの能力と限界に関する重要な洞察を明らかにした。
我々は、CoMTがマルチモーダル・ジェネレーションを推論プロセスに導入するためのさらなる研究を刺激できることを期待している。
関連論文リスト
- MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。
1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。
マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - M$^3$CoT: A Novel Benchmark for Multi-Domain Multi-step Multi-modal Chain-of-Thought [50.576016777061724]
MCoT(Multi-modal Chain-of-Thought)は、ステップバイステップ推論において、テキストと視覚の両方のモダリティからの知識を活用するモデルを必要とする。
現在のMCoTベンチマークでは、(1)視覚的モーダル推論の欠如、(2)単段階視覚的モーダル推論の欠如、(3)ドメインの欠如など、いくつかの課題に直面している。
上記の課題に対処するための新しいベンチマーク(M$3$CoT)を導入し、マルチドメイン、マルチステップ、マルチモーダルCoTを推進した。
論文 参考訳(メタデータ) (2024-05-26T07:56:30Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Multi-modal Latent Space Learning for Chain-of-Thought Reasoning in
Language Models [25.058162782167503]
CoT推論(Chain-of-thinkt)は、複雑なタスクの解決と質問に答えるための言語モデルにおいて、素晴らしいパフォーマンスを示している。
本稿では,言語思考に整合した効果的な画像特徴を生成するために,拡散過程による潜時空間学習を利用するマルチモーダルCoT推論の新しい手法を提案する。
提案手法は画像特徴とテキスト表現を深いレベルで融合し,マルチモーダルCoTの複雑な推論能力を向上させる。
論文 参考訳(メタデータ) (2023-12-14T09:13:09Z) - New Ideas and Trends in Deep Multimodal Content Understanding: A Review [24.576001583494445]
本調査の焦点は、画像とテキストの2つのモーダルな深層学習の分析である。
本稿では, 自動エンコーダ, 生成逆数ネットなどを含む最近の多モード深層モデルと構造について検討する。
論文 参考訳(メタデータ) (2020-10-16T06:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。