論文の概要: M$^3$CoT: A Novel Benchmark for Multi-Domain Multi-step Multi-modal Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2405.16473v1
- Date: Sun, 26 May 2024 07:56:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 21:08:36.719467
- Title: M$^3$CoT: A Novel Benchmark for Multi-Domain Multi-step Multi-modal Chain-of-Thought
- Title(参考訳): M$^3$CoT: マルチドメインマルチステップマルチモーダルチェーンのための新しいベンチマーク
- Authors: Qiguang Chen, Libo Qin, Jin Zhang, Zhi Chen, Xiao Xu, Wanxiang Che,
- Abstract要約: MCoT(Multi-modal Chain-of-Thought)は、ステップバイステップ推論において、テキストと視覚の両方のモダリティからの知識を活用するモデルを必要とする。
現在のMCoTベンチマークでは、(1)視覚的モーダル推論の欠如、(2)単段階視覚的モーダル推論の欠如、(3)ドメインの欠如など、いくつかの課題に直面している。
上記の課題に対処するための新しいベンチマーク(M$3$CoT)を導入し、マルチドメイン、マルチステップ、マルチモーダルCoTを推進した。
- 参考スコア(独自算出の注目度): 50.576016777061724
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-modal Chain-of-Thought (MCoT) requires models to leverage knowledge from both textual and visual modalities for step-by-step reasoning, which gains increasing attention. Nevertheless, the current MCoT benchmark still faces some challenges: (1) absence of visual modal reasoning, (2) single-step visual modal reasoning, and (3) Domain missing, thereby hindering the development of MCoT. Motivated by this, we introduce a novel benchmark (M$^3$CoT) to address the above challenges, advancing the multi-domain, multi-step, and multi-modal CoT. Additionally, we conduct a thorough evaluation involving abundant MCoT approaches on Vision Large Language Models (VLLMs). In addition, we highlight that the current VLLMs still struggle to correctly reason in M$^3$CoT and there remains a large gap between existing VLLMs and human performance in M$^3$CoT, despite their superior results on previous MCoT benchmarks. To our knowledge, we take the first meaningful step toward the multi-domain, multi-step, and multi-modal scenario in MCoT. We hope that M$^3$CoT can serve as a valuable resource, providing a pioneering foundation in multi-domain, multi-step, multi-modal chain-of-thought research.
- Abstract(参考訳): MCoT(Multi-modal Chain-of-Thought)は、ステップバイステップ推論において、テキストと視覚の両方のモダリティからの知識を活用するモデルを必要とする。
しかしながら、現在のMCoTベンチマークでは、(1)視覚的モーダル推論の欠如、(2)単段階視覚的モーダル推論の欠如、(3)ドメインの欠如など、いくつかの課題に直面している。
そこで我々は,上記の課題に対処する新しいベンチマーク(M$^3$CoT)を導入し,マルチドメイン,マルチステップ,マルチモーダルCoTを推し進める。
さらに,視覚大言語モデル(VLLM)上で,豊富なMCoTアプローチを含む徹底的な評価を行う。
さらに、現在のVLLMsはM$3$CoTの正しい推論に苦慮しており、既存のVLLMsとM$3$CoTの人的パフォーマンスとの間には大きなギャップがある。
我々の知る限り、我々はMCoTにおけるマルチドメイン、マルチステップ、マルチモーダルシナリオへの第一歩を踏み出します。
我々は、M$^3$CoTが貴重なリソースとして機能し、マルチドメイン、マルチステップ、マルチモーダル・チェーン・オブ・思想研究の先駆的な基盤を提供することを期待している。
関連論文リスト
- Multi-modal Retrieval Augmented Multi-modal Generation: A Benchmark, Evaluate Metrics and Strong Baselines [63.427721165404634]
本稿では,マルチモーダル検索拡張マルチモーダル生成(M$2$RAG)の興味深い課題について検討する。
このタスクでは,複数モーダルなWebページを閲覧し,テキストと画像が混在し,ユーザクエリを解決するためのマルチモーダルな応答を生成するための基礎モデルが必要である。
我々は,M$2$RAGタスクのベンチマークを構築し,既存の基礎モデルの能力を分析するために,テキストモーダルメトリクスとマルチモーダルメトリクスのセットを備える。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - M3Hop-CoT: Misogynous Meme Identification with Multimodal Multi-hop Chain-of-Thought [21.06134139986278]
メソジニアスミーム識別のためのマルチモーダルマルチホップCoT(M3Hop-CoT)フレームワークを提案する。
M3Hop-CoTは、感情を誘発する3段階のマルチモーダルの原理、目標認識、ミーム分析のための文脈知識を採用している。
各種ベンチマークミームデータセットで評価することで,モデルの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-11T19:50:53Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI [71.53579367538725]
MMT-Benchは、大規模なマルチモーダルタスクにわたるLVLM(Large Vision-Language Models)を評価するために設計されたベンチマークである。
MMT-Benchは、様々なマルチモーダルシナリオから、巧妙にキュレートされたマルチチョイスの視覚的質問を31,325ドルで提供する。
論文 参考訳(メタデータ) (2024-04-24T17:37:05Z) - Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。
TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。
またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文 参考訳(メタデータ) (2024-01-20T04:46:43Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - Missing Modality Robustness in Semi-Supervised Multi-Modal Semantic
Segmentation [27.23513712371972]
簡単なマルチモーダル核融合機構を提案する。
また,マルチモーダル学習のためのマルチモーダル教師であるM3Lを提案する。
我々の提案は、最も競争力のあるベースラインよりも、ロバストmIoUで最大10%の絶対的な改善を示す。
論文 参考訳(メタデータ) (2023-04-21T05:52:50Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。