論文の概要: VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models
- arxiv url: http://arxiv.org/abs/2405.16919v3
- Date: Sat, 08 Mar 2025 17:16:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:44:39.663762
- Title: VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models
- Title(参考訳): VoCoT:大規模マルチモードモデルにおける視覚的接地型マルチステップ推論
- Authors: Zejun Li, Ruipu Luo, Jiwen Zhang, Minghui Qiu, Xuanjing Huang, Zhongyu Wei,
- Abstract要約: 本稿では,LMMを用いた推論に適した多段階の視覚的対象中心連鎖推論フレームワークであるVoCoTを提案する。
VoCoT とオープンソース LMM アーキテクチャを組み合わせることで,VoCoT ベースのモデル VolCano を開発した。
7Bパラメータと限られた入力画像解像度で、VolCanoは様々なシナリオで優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 47.627806035674745
- License:
- Abstract: While large multi-modal models (LMMs) have exhibited impressive capabilities across diverse tasks, their effectiveness in handling complex tasks has been limited by the prevailing single-step reasoning paradigm. To this end, this paper proposes VoCoT, a multi-step Visually grounded object-centric Chain-of-Thought reasoning framework tailored for inference with LMMs. VoCoT is characterized by two key features: (1) object-centric reasoning paths that revolve around cross-modal shared object-level information, and (2) visually grounded representation of object concepts in a multi-modal interleaved and aligned manner, which effectively bridges the modality gap within LMMs during long-term generation. To adapt LMMs in reasoning with VoCoT, we further construct an instruction-tuning dataset. By combining VoCoT with the prevalent open-source LMM architectures, we develop a VoCoT-based model, VolCano. With only 7B parameters and limited input image resolution, VolCano demonstrates excellent performance across various scenarios. In benchmarks like CLEVR and EmbSpatial, which highly require complex reasoning capabilities, VolCano outperforms SOTA models, including powerful GPT-4V. Related code, data and models are released in https://github.com/RupertLuo/VoCoT.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は多種多様なタスクにまたがる印象的な能力を示してきたが、複雑なタスクを扱う上での有効性は、一般的なシングルステップ推論パラダイムによって制限されてきた。
そこで本稿では,LMMを用いた推論に適した,多段階の視覚的基盤を持つオブジェクト中心の連鎖推論フレームワークであるVoCoTを提案する。
VoCoT の特徴は,(1) オブジェクト間の共有オブジェクトレベルの情報を取り巻くオブジェクト中心の推論経路,(2) 多モードのインターリーブとアライメントによるオブジェクト概念の視覚的接地表現により,LMM の長期的生成におけるモダリティギャップを効果的に橋渡しする,という2つの特徴である。
VoCoTによる推論にLMMを適用するために,命令調整データセットをさらに構築する。
VoCoT とオープンソース LMM アーキテクチャを組み合わせることで,VoCoT ベースのモデル VolCano を開発した。
7Bパラメータと限られた入力画像解像度で、VolCanoは様々なシナリオで優れたパフォーマンスを示す。
CLEVRやEmbSpatialのような複雑な推論能力を必要とするベンチマークでは、VolCanoは強力なGPT-4Vを含むSOTAモデルより優れている。
関連コード、データ、モデルはhttps://github.com/RupertLuo/VoCoT.comで公開されている。
関連論文リスト
- Towards Efficient Large Multimodal Model Serving [19.388562622309838]
大規模マルチモーダルモデル(LMM)は、テキスト、画像、ビデオ、オーディオなどの様々なモダリティの入力を同時に処理することができる。
これらのモデルは、複雑なアーキテクチャと異質なリソース要求のために大きな課題を生じさせる。
本稿では,各ステージ毎に独立したリソース割り当てと適応スケーリングを可能にする分離されたサービスアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-02T22:10:40Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - CaMML: Context-Aware Multimodal Learner for Large Models [16.30752006781618]
大規模マルチモーダルモデル(LMM)をチューニングするためのコンテキスト認識型マルチモーダル学習器(CaMML)を導入する。
CaMMLは、マルチモーダルなコンテキストサンプルを大きなモデルにシームレスに統合し、類似したドメイン固有の最新の情報から知識を引き出すことができるように設計されている。
CaMMLに基づく2つのマルチモーダルモデルであるCaMML-7BとCaMML-13Bを開発した。
論文 参考訳(メタデータ) (2024-01-06T07:54:58Z) - CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal
Models with Multiple Image Inputs [48.269363759989915]
この研究は、第1、画像対画像マッチング、第2、複数画像対テキストマッチングという2つの側面に焦点を当てている。
我々は, GPT-4V, Gemini, OpenFlamingo, MMICLを含む, オープンソースおよびクローズドソースの大規模モデルについて評価を行った。
論文 参考訳(メタデータ) (2024-01-05T00:26:07Z) - Multimodal Question Answering for Unified Information Extraction [15.798187192290746]
マルチモーダル情報抽出は、構造化されていないマルチメディアコンテンツから構造化された情報を抽出することを目的としている。
現在のMIEモデルはタスク固有でデータ集約である。
3つのMIEタスクを統合するための新しいマルチモーダル質問応答(MQA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:05Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。