論文の概要: Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and
Visual Question Generation
- arxiv url: http://arxiv.org/abs/2401.10005v1
- Date: Thu, 18 Jan 2024 14:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:24:01.330327
- Title: Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and
Visual Question Generation
- Title(参考訳): 明示的連鎖と視覚的質問生成による大規模マルチモーダルモデルの改善
- Authors: Kohei Uehara, Nabarun Goswami, Hanqin Wang, Toshiaki Baba, Kohtaro
Tanaka, Tomohiro Hashimoto, Kai Wang, Rei Ito, Takagi Naoya, Ryo Umagami,
Yingyi Wen, Tanachai Anakewat, Tatsuya Harada
- Abstract要約: 本稿では,視覚的内容とテキストによる指示に基づいて,明示的な推論を行う能力を備えたLMMの創発的アプローチを提案する。
本稿では,質問に対して必要な知識を習得し,推論プロセスの堅牢性と説明可能性を高めるシステムを提案する。
- 参考スコア(独自算出の注目度): 35.29469943612098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing demand for intelligent systems capable of interpreting and
reasoning about visual content requires the development of Large Multi-Modal
Models (LMMs) that are not only accurate but also have explicit reasoning
capabilities. This paper presents a novel approach to imbue an LMM with the
ability to conduct explicit reasoning based on visual content and textual
instructions. We introduce a system that can ask a question to acquire
necessary knowledge, thereby enhancing the robustness and explicability of the
reasoning process. Our method comprises the development of a novel dataset
generated by a Large Language Model (LLM), designed to promote chain-of-thought
reasoning combined with a question-asking mechanism. We designed an LMM, which
has high capabilities on region awareness to address the intricate requirements
of image-text alignment. The model undergoes a three-stage training phase,
starting with large-scale image-text alignment using a large-scale datasets,
followed by instruction tuning, and fine-tuning with a focus on
chain-of-thought reasoning. The results demonstrate a stride toward a more
robust, accurate, and interpretable LMM, capable of reasoning explicitly and
seeking information proactively when confronted with ambiguous visual input.
- Abstract(参考訳): 視覚コンテンツの解釈と推論が可能なインテリジェントなシステムに対する需要の増大は、精度だけでなく明確な推論能力を持つ大規模なマルチモーダルモデル(lmm)の開発を必要とする。
本稿では,視覚的内容とテキストによる指示に基づいて,明示的な推論を行う能力を備えたLMMを提案する。
必要な知識を得るために質問をすることができるシステムを導入し,推論プロセスの堅牢性と拡張性を高める。
本手法は,大規模言語モデル(llm)が生成する新しいデータセットの開発であり,質問応答機構と組み合わせて,思考の連鎖を促進することを意図したものである。
我々は、画像テキストアライメントの複雑な要件に対処するために、地域認識に高機能なLMMを設計した。
モデルは3段階のトレーニングフェーズを経て,大規模なデータセットを使用した大規模画像テキストアライメントから始まり,命令チューニング,チェーン・オブ・ソート推論による微調整を行う。
その結果、より堅牢で正確で解釈可能なLMMへの一歩が示され、曖昧な視覚的入力に直面したときに、情報を明確に推論し、積極的に情報を求めることができる。
関連論文リスト
- Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large
Multimodal Models [92.68883571206032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
我々はLMMの知覚能力の学習をタスク非依存およびタスク特化段階に分離する。
LumenはCOCO検出ベンチマークで既存のLMMベースのアプローチをはるかに上回り、視覚的なタスクにシームレスなスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Chain-of-Thought Prompt Distillation for Multimodal Named Entity
Recognition and Multimodal Relation Extraction [8.169359626365619]
思考のテキストチェーン(CoT) -- 中間推論ステップのシーケンスを生成します。
本稿では,大規模言語モデルからのコモンセンス推論能力を同化するための新しい条件付きプロンプト蒸留法を提案する。
我々のアプローチは最先端の精度を達成し、解釈可能性、データ効率、ドメイン間の一般化に関する多くの利点を示す。
論文 参考訳(メタデータ) (2023-06-25T04:33:56Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。