Fugu-MT 論文翻訳(概要): Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation

論文の概要: Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation

arxiv url: http://arxiv.org/abs/2401.10005v1
Date: Thu, 18 Jan 2024 14:21:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 16:24:01.330327
Title: Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation
Title（参考訳）: 明示的連鎖と視覚的質問生成による大規模マルチモーダルモデルの改善
Authors: Kohei Uehara, Nabarun Goswami, Hanqin Wang, Toshiaki Baba, Kohtaro Tanaka, Tomohiro Hashimoto, Kai Wang, Rei Ito, Takagi Naoya, Ryo Umagami, Yingyi Wen, Tanachai Anakewat, Tatsuya Harada
Abstract要約: 本稿では,視覚的内容とテキストによる指示に基づいて,明示的な推論を行う能力を備えたLMMの創発的アプローチを提案する。本稿では,質問に対して必要な知識を習得し,推論プロセスの堅牢性と説明可能性を高めるシステムを提案する。
参考スコア（独自算出の注目度）: 35.29469943612098
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increasing demand for intelligent systems capable of interpreting and reasoning about visual content requires the development of Large Multi-Modal Models (LMMs) that are not only accurate but also have explicit reasoning capabilities. This paper presents a novel approach to imbue an LMM with the ability to conduct explicit reasoning based on visual content and textual instructions. We introduce a system that can ask a question to acquire necessary knowledge, thereby enhancing the robustness and explicability of the reasoning process. Our method comprises the development of a novel dataset generated by a Large Language Model (LLM), designed to promote chain-of-thought reasoning combined with a question-asking mechanism. We designed an LMM, which has high capabilities on region awareness to address the intricate requirements of image-text alignment. The model undergoes a three-stage training phase, starting with large-scale image-text alignment using a large-scale datasets, followed by instruction tuning, and fine-tuning with a focus on chain-of-thought reasoning. The results demonstrate a stride toward a more robust, accurate, and interpretable LMM, capable of reasoning explicitly and seeking information proactively when confronted with ambiguous visual input.
Abstract（参考訳）: 視覚コンテンツの解釈と推論が可能なインテリジェントなシステムに対する需要の増大は、精度だけでなく明確な推論能力を持つ大規模なマルチモーダルモデル(lmm)の開発を必要とする。本稿では,視覚的内容とテキストによる指示に基づいて,明示的な推論を行う能力を備えたLMMを提案する。必要な知識を得るために質問をすることができるシステムを導入し,推論プロセスの堅牢性と拡張性を高める。本手法は,大規模言語モデル(llm)が生成する新しいデータセットの開発であり,質問応答機構と組み合わせて,思考の連鎖を促進することを意図したものである。我々は、画像テキストアライメントの複雑な要件に対処するために、地域認識に高機能なLMMを設計した。モデルは3段階のトレーニングフェーズを経て,大規模なデータセットを使用した大規模画像テキストアライメントから始まり,命令チューニング,チェーン・オブ・ソート推論による微調整を行う。その結果、より堅牢で正確で解釈可能なLMMへの一歩が示され、曖昧な視覚的入力に直面したときに、情報を明確に推論し、積極的に情報を求めることができる。

関連論文リスト

Are Unified Vision-Language Models Necessary: Generalization Across Understanding and Generation [50.22361866757033]
統合視覚言語モデル(VLM)は、視覚的理解と生成機能の両方を統合する。本稿では,統一VLMにおける理解・生成タスクの一般化を体系的に検討する。
論文参考訳（メタデータ） (2025-05-29T03:40:21Z)
MAGIC-VQA: Multimodal And Grounded Inference with Commonsense Knowledge for Visual Question Answering [13.688881081075472]
本稿では,広視野言語モデル(LVLM)と共通知識を体系的に統合することにより,視覚質問応答(VQA)を向上させる新しいフレームワークであるMAGIC-VQAを紹介する。 MAGIC-VQAは、外部ソースからの明示的な知識統合、コンテキストの洗練のためのBY-Type Post-Processing、構造化推論のためのグラフニューラルネットワーク(GNN)を用いたインプシット知識拡張という3段階のプロセスを採用している。我々のフレームワークは,ベンチマークデータセット上での最先端性能を実現し,VQAにおける常識推論を大幅に改善する。
論文参考訳（メタデータ） (2025-03-24T09:45:26Z)
Natural Language Understanding and Inference with MLLM in Visual Question Answering: A Survey [17.33078069581465]
VQA(Visual Question Answering)は、自然言語処理とコンピュータビジョン技術を組み合わせた課題である。この調査は、画像とテキストの自然言語理解の最新の合成を提供する。
論文参考訳（メタデータ） (2024-11-26T16:21:03Z)
Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models [64.1799100754406]
大きな言語モデル(LLM)は、さらなる推論によって拡張された能力と信頼性を示す。 LLM推論の改善へのさまざまな取り組みにもかかわらず、高品質な長鎖推論データと最適化されたトレーニングパイプラインは、まだビジョン言語タスクでは不十分である。本稿では,1)複雑なマルチモーダルタスクに対する長大かつ堅牢な推論データを生成するための初期の取り組みであるInsight-Vと,2)MLLMの推論能力を高めるための効果的なトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:55Z)
Multimodal Commonsense Knowledge Distillation for Visual Question Answering [12.002744625599425]
本稿では,教師の学習環境に追従したグラフ畳み込みネットワーク(GCN)を通して,共通知識,視覚オブジェクト,質問に対する統一的なグラフを構築する,新しいグラフベースのマルチモーダルコモンセンス知識蒸留フレームワークを提案する。提案するフレームワークは,教師モデルや学生モデルに対して,さらなる微調整を行なわずに柔軟であり,ScienceQAデータセット上での競争性能を達成している。
論文参考訳（メタデータ） (2024-11-05T01:37:16Z)
Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文参考訳（メタデータ） (2024-10-12T06:22:23Z)
SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant [48.220285886328746]
本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。 SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示す。高品質なインストラクションデータに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して性能改善を示す。
論文参考訳（メタデータ） (2024-03-17T18:42:38Z)
Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文参考訳（メタデータ） (2024-02-20T18:57:34Z)
Learning without Forgetting for Vision-Language Models [65.49600786387106]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。 VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文参考訳（メタデータ） (2023-05-30T17:59:32Z)
Prophet: Prompting Large Language Models with Complementary Answer Heuristics for Knowledge-based Visual Question Answering [30.858737348472626]
知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。近年の研究では,暗黙の知識エンジンとして強力な大規模言語モデル (LLM) を用いることで,回答に必要な知識を獲得している。本稿では,知識に基づくVQAの解答をLCMに促すための,概念的にシンプルで柔軟な,汎用的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-03T13:05:15Z)
See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。 IPVRには3つのステージがある。我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文参考訳（メタデータ） (2023-01-12T18:59:50Z)
KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文参考訳（メタデータ） (2021-12-16T04:37:10Z)
Text Modular Networks: Learning to Decompose Tasks in the Language of Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文参考訳（メタデータ） (2020-09-01T23:45:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。