論文の概要: Towards Self-Improving Systematic Cognition for Next-Generation Foundation MLLMs
- arxiv url: http://arxiv.org/abs/2503.12303v4
- Date: Fri, 21 Mar 2025 02:50:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 11:33:31.971130
- Title: Towards Self-Improving Systematic Cognition for Next-Generation Foundation MLLMs
- Title(参考訳): 次世代MLLMのための自己改善型システム認識に向けて
- Authors: Xiaoying Zhang, Da Peng, Yipeng Zhang, Zonghao Guo, Chengyue Wu, Chi Chen, Wei Ke, Helen Meng, Maosong Sun,
- Abstract要約: MLLM(Multimodal Large Language Models)は、微粒な認識と複雑な推論を伴う課題に直面する。
MLLM構築における事前学習の一般的なアプローチは、高品質な画像キャプションの訓練による知覚の向上に焦点を当てている。
本稿では,次世代MLLMを構築するための自己学習フレームワークである自己改善認知(SIcog)を紹介する。
- 参考スコア(独自算出の注目度): 86.21199607040147
- License:
- Abstract: Despite their impressive capabilities, Multimodal Large Language Models (MLLMs) face challenges with fine-grained perception and complex reasoning. Prevalent multimodal pre-training approaches in MLLM construction focus on enhancing perception by training on high-quality image captions. While leveraging advanced MLLMs for caption generation enhances scalability, their outputs often lack comprehensiveness and accuracy. In this paper, we introduce Self-Improving cognition (SIcog), a self-learning framework designed to construct next-generation foundation MLLMs by enhancing their systematic cognitive capabilities through multimodal pre-training with self-generated data. Specifically, we propose Chain-of-Description (CoD), an approach that improves an MLLM's systematic perception by enabling step-by-step visual understanding. CoD sequentially focuses on salient content, fine-grained details, relational attributes, and peripheral context, before generating a coherent description, ensuring greater accuracy and comprehensiveness. Additionally, we adopt a structured chain-of-thought (CoT) reasoning technique to enable MLLMs to integrate in-depth multimodal reasoning. To construct a next-generation foundation MLLM with self-improved cognition, SIcog first equips an MLLM with systematic perception and reasoning abilities using minimal external annotations. The enhanced models then generate detailed captions and CoT reasoning data, which are further curated through self-consistency. This curated data is ultimately used for multimodal pre-training to develop next-generation foundation models. Extensive experiments on both low- and high-resolution MLLMs across diverse benchmarks demonstrate that, SIcog produces next-generation foundation MLLMs with significantly improved cognition, achieving benchmark-leading performance compared to prevalent pre-training approaches.
- Abstract(参考訳): その印象的な能力にもかかわらず、マルチモーダル大言語モデル(MLLM)は、きめ細かい認識と複雑な推論を伴う課題に直面している。
MLLM構築における多モード事前学習手法は、高品質な画像キャプションの訓練による知覚の向上に重点を置いている。
キャプション生成に高度なMLLMを利用するとスケーラビリティが向上するが、その出力は包括性と精度に欠けることが多い。
本稿では,自己生成データを用いたマルチモーダル事前学習を通じて,その体系的認知能力を向上し,次世代MLLMを構築するための自己学習フレームワークである,自己改善認知(SIcog)を紹介する。
具体的には、ステップバイステップの視覚的理解を可能にすることでMLLMの体系的知覚を改善するアプローチであるChain-of-Description (CoD)を提案する。
CoDは、コヒーレントな記述を生成する前に、顕著な内容、きめ細かい詳細、リレーショナル属性、周辺コンテキストに順次焦点を合わせ、より正確かつ包括性を確保する。
さらに、MLLMが深いマルチモーダル推論を統合できるように、構造化チェーン・オブ・シークレット(CoT)推論手法を採用する。
自己改善された認識を持つ次世代の基盤MLLMを構築するために、SIcogは、まず、最小外部アノテーションを用いて、体系的な認識と推論能力を備えたMLLMを装備する。
強化されたモデルは、詳細なキャプションとCoT推論データを生成し、さらに自己整合性を通じてキュレートされる。
このキュレートされたデータは、最終的に次世代の基礎モデルを開発するためのマルチモーダル事前訓練に使用される。
様々なベンチマークにおける低解像度および高解像度のMLLMの広範な実験により、SIcogは認識を著しく改善した次世代のMLLMを生産し、事前学習のアプローチに比べてベンチマークリード性能が向上することを示した。
関連論文リスト
- SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks? [6.7065734065794835]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。
MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。
キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文 参考訳(メタデータ) (2024-11-13T09:37:24Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。