論文の概要: Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and
Visual Question Generation
- arxiv url: http://arxiv.org/abs/2401.10005v1
- Date: Thu, 18 Jan 2024 14:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:24:01.330327
- Title: Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and
Visual Question Generation
- Title(参考訳): 明示的連鎖と視覚的質問生成による大規模マルチモーダルモデルの改善
- Authors: Kohei Uehara, Nabarun Goswami, Hanqin Wang, Toshiaki Baba, Kohtaro
Tanaka, Tomohiro Hashimoto, Kai Wang, Rei Ito, Takagi Naoya, Ryo Umagami,
Yingyi Wen, Tanachai Anakewat, Tatsuya Harada
- Abstract要約: 本稿では,視覚的内容とテキストによる指示に基づいて,明示的な推論を行う能力を備えたLMMの創発的アプローチを提案する。
本稿では,質問に対して必要な知識を習得し,推論プロセスの堅牢性と説明可能性を高めるシステムを提案する。
- 参考スコア(独自算出の注目度): 35.29469943612098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing demand for intelligent systems capable of interpreting and
reasoning about visual content requires the development of Large Multi-Modal
Models (LMMs) that are not only accurate but also have explicit reasoning
capabilities. This paper presents a novel approach to imbue an LMM with the
ability to conduct explicit reasoning based on visual content and textual
instructions. We introduce a system that can ask a question to acquire
necessary knowledge, thereby enhancing the robustness and explicability of the
reasoning process. Our method comprises the development of a novel dataset
generated by a Large Language Model (LLM), designed to promote chain-of-thought
reasoning combined with a question-asking mechanism. We designed an LMM, which
has high capabilities on region awareness to address the intricate requirements
of image-text alignment. The model undergoes a three-stage training phase,
starting with large-scale image-text alignment using a large-scale datasets,
followed by instruction tuning, and fine-tuning with a focus on
chain-of-thought reasoning. The results demonstrate a stride toward a more
robust, accurate, and interpretable LMM, capable of reasoning explicitly and
seeking information proactively when confronted with ambiguous visual input.
- Abstract(参考訳): 視覚コンテンツの解釈と推論が可能なインテリジェントなシステムに対する需要の増大は、精度だけでなく明確な推論能力を持つ大規模なマルチモーダルモデル(lmm)の開発を必要とする。
本稿では,視覚的内容とテキストによる指示に基づいて,明示的な推論を行う能力を備えたLMMを提案する。
必要な知識を得るために質問をすることができるシステムを導入し,推論プロセスの堅牢性と拡張性を高める。
本手法は,大規模言語モデル(llm)が生成する新しいデータセットの開発であり,質問応答機構と組み合わせて,思考の連鎖を促進することを意図したものである。
我々は、画像テキストアライメントの複雑な要件に対処するために、地域認識に高機能なLMMを設計した。
モデルは3段階のトレーニングフェーズを経て,大規模なデータセットを使用した大規模画像テキストアライメントから始まり,命令チューニング,チェーン・オブ・ソート推論による微調整を行う。
その結果、より堅牢で正確で解釈可能なLMMへの一歩が示され、曖昧な視覚的入力に直面したときに、情報を明確に推論し、積極的に情報を求めることができる。
関連論文リスト
- Natural Language Understanding and Inference with MLLM in Visual Question Answering: A Survey [17.33078069581465]
VQA(Visual Question Answering)は、自然言語処理とコンピュータビジョン技術を組み合わせた課題である。
この調査は、画像とテキストの自然言語理解の最新の合成を提供する。
論文 参考訳(メタデータ) (2024-11-26T16:21:03Z) - Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。
LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。
本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:55Z) - Multimodal Commonsense Knowledge Distillation for Visual Question Answering [12.002744625599425]
本稿では,教師の学習環境に追従したグラフ畳み込みネットワーク(GCN)を通して,共通知識,視覚オブジェクト,質問に対する統一的なグラフを構築する,新しいグラフベースのマルチモーダルコモンセンス知識蒸留フレームワークを提案する。
提案するフレームワークは,教師モデルや学生モデルに対して,さらなる微調整を行なわずに柔軟であり,ScienceQAデータセット上での競争性能を達成している。
論文 参考訳(メタデータ) (2024-11-05T01:37:16Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant [48.220285886328746]
本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。
SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示す。
高品質なインストラクションデータに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して性能改善を示す。
論文 参考訳(メタデータ) (2024-03-17T18:42:38Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - Learning without Forgetting for Vision-Language Models [65.49600786387106]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:59:32Z) - Prophet: Prompting Large Language Models with Complementary Answer
Heuristics for Knowledge-based Visual Question Answering [30.858737348472626]
知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。
近年の研究では,暗黙の知識エンジンとして強力な大規模言語モデル (LLM) を用いることで,回答に必要な知識を獲得している。
本稿では,知識に基づくVQAの解答をLCMに促すための,概念的にシンプルで柔軟な,汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T13:05:15Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。