論文の概要: Self-Improvement in Multimodal Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2510.02665v1
- Date: Fri, 03 Oct 2025 01:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.233573
- Title: Self-Improvement in Multimodal Large Language Models: A Survey
- Title(参考訳): マルチモーダル大言語モデルの自己改善に関する調査
- Authors: Shijian Deng, Kai Wang, Tianyu Yang, Harsh Singh, Yapeng Tian,
- Abstract要約: LLM(Large Language Models)の自己改善は、コストを大幅に増大させることなく、効率的にモデル機能を強化している。
この調査は、マルチモーダル LLM における自己改善に関する総合的な概要を提供する最初のものである。
- 参考スコア(独自算出の注目度): 34.36094499050208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in self-improvement for Large Language Models (LLMs) have efficiently enhanced model capabilities without significantly increasing costs, particularly in terms of human effort. While this area is still relatively young, its extension to the multimodal domain holds immense potential for leveraging diverse data sources and developing more general self-improving models. This survey is the first to provide a comprehensive overview of self-improvement in Multimodal LLMs (MLLMs). We provide a structured overview of the current literature and discuss methods from three perspectives: 1) data collection, 2) data organization, and 3) model optimization, to facilitate the further development of self-improvement in MLLMs. We also include commonly used evaluations and downstream applications. Finally, we conclude by outlining open challenges and future research directions.
- Abstract(参考訳): 近年のLarge Language Models(LLM)の自己改善は、特に人的努力の観点から、コストを大幅に増大させることなく、効率的にモデル機能を強化している。
この領域はまだ比較的若いが、マルチモーダル領域への拡張は、多様なデータソースを活用し、より一般的な自己改善モデルを開発する大きな可能性を秘めている。
この調査は、MLLM(Multimodal LLM)における自己改善の総合的な概要を提供する最初のものである。
本稿は、現在の文献の構造化概要と3つの観点からの方法について議論する。
1) データ収集
2)データ組織、及び
3)MLLMにおける自己改善のさらなる発展を促進するため,モデル最適化を行う。
また、一般的に使われている評価や下流のアプリケーションも含んでいます。
最後に,オープン課題の概要と今後の研究方向性について述べる。
関連論文リスト
- Analyzing Diffusion and Autoregressive Vision Language Models in Multimodal Embedding Space [52.34072027212278]
埋め込みモデルは、セマンティック検索や検索強化生成のような現代のAIシステムの基本コンポーネントである。
大規模基盤モデルの最近の進歩は、埋め込みモデルの開発を著しく加速させてきた。
マルチモーダルdLLMを埋め込みモデルに変換するための最初の体系的研究について述べる。
論文 参考訳(メタデータ) (2026-01-19T06:51:15Z) - Enhanced Multimodal Aspect-Based Sentiment Analysis by LLM-Generated Rationales [7.119479942471737]
既存の方法は、画像とテキストの両方からアスペクトや感情に関連する情報を集めるために、事前訓練された小さな言語モデル(SLM)に依存している。
我々は,SLMの意思決定能力とMABSAのためのLLMが提供する付加情報を組み合わせた新しいフレームワークLRSAを提案する。
論文 参考訳(メタデータ) (2025-05-20T15:28:26Z) - Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。
本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文 参考訳(メタデータ) (2025-01-10T04:35:46Z) - Multi-modal Generative AI: Multi-modal LLMs, Diffusions and the Unification [41.88402339122694]
マルチモーダル生成AI(Artificial Intelligence)は、学術と産業の両方から注目を集めている。
本稿では、マルチモーダルLLM、拡散、理解と生成のための統一を含む、多モーダル生成AIの概要について概観する。
論文 参考訳(メタデータ) (2024-09-23T13:16:09Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [31.71954519657729]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。