Fugu-MT 論文翻訳(概要): From Specific-MLLMs to Omni-MLLMs: A Survey on MLLMs Aligned with Multi-modalities

論文の概要: From Specific-MLLMs to Omni-MLLMs: A Survey on MLLMs Aligned with Multi-modalities

arxiv url: http://arxiv.org/abs/2412.11694v3
Date: Tue, 04 Mar 2025 01:47:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 23:36:47.887852
Title: From Specific-MLLMs to Omni-MLLMs: A Survey on MLLMs Aligned with Multi-modalities
Title（参考訳）: 特定MLLMからOmni-MLLMへ:マルチモダリティを考慮したMLLMに関する調査
Authors: Shixin Jiang, Jiafeng Liang, Jiyuan Wang, Xuan Dong, Heng Chang, Weijiang Yu, Jinhua Du, Ming Liu, Bing Qin,
Abstract要約: Omni-MLLMは、Omni-Modalの理解と生成を目指している。我々はまず,Omni-MLLMの4つのコアコンポーネントについて,統一マルチモーダルモデリングについて説明する。次に、2段階のトレーニングによって達成された効果的な統合を紹介し、対応するデータセットについて議論する。
参考スコア（独自算出の注目度）: 25.960115362862386
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To tackle complex tasks in real-world scenarios, more researchers are focusing on Omni-MLLMs, which aim to achieve omni-modal understanding and generation. Beyond the constraints of any specific non-linguistic modality, Omni-MLLMs map various non-linguistic modalities into the embedding space of LLMs and enable the interaction and understanding of arbitrary combinations of modalities within a single model. In this paper, we systematically investigate relevant research and provide a comprehensive survey of Omni-MLLMs. Specifically, we first explain the four core components of Omni-MLLMs for unified multi-modal modeling with a meticulous taxonomy that offers novel perspectives. Then, we introduce the effective integration achieved through two-stage training and discuss the corresponding datasets as well as evaluation. Furthermore, we summarize the main challenges of current Omni-MLLMs and outline future directions. We hope this paper serves as an introduction for beginners and promotes the advancement of related research. Resources have been made publicly available at https://github.com/threegold116/Awesome-Omni-MLLMs.
Abstract（参考訳）: 現実世界のシナリオで複雑なタスクに取り組むために、より多くの研究者がOmni-MLLMsに注目している。特定の非言語的モダリティの制約を超えて、Omni-MLLM は様々な非言語的モダリティを LLM の埋め込み空間にマッピングし、単一のモデル内の任意のモダリティの組み合わせの相互作用と理解を可能にする。本稿では,関連研究を体系的に調査し,Omni-MLLMの総合的な調査を行う。具体的には,Omni-MLLMの4つの中核成分について,新しい視点を提供する巧妙な分類法と統合マルチモーダルモデリングについて説明する。次に,2段階のトレーニングによって達成された効果的な統合について紹介し,対応するデータセットと評価について議論する。さらに,現在のOmni-MLLMの主な課題を概説し,今後の方向性を概説する。本論文が初心者の紹介として役立ち,関連研究の進展を促進することを願っている。リソースはhttps://github.com/ Threegold116/Awesome-Omni-MLLMsで公開されている。

関連論文リスト

Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation [48.462734327375536]
MLLM(Multi-modal large language model)は、多種多様なシナリオやオブジェクトの包括的理解を可能にする。 MLLMの評価ベンチマークやリーダーボードの普及にもかかわらず、彼らはMLLMが視覚的に現れる構造化された抽象化で世界的知識を理解する上で重要な能力を見落としている。構造化理解のためのマルチモーダルマップを基盤とした,革新的なベンチマークであるM3STRを提案する。その結果,抽象的視覚情報を構造化知識で処理し,MLLMの総合的推論能力を向上させるための重要な軌道を図った。
論文参考訳（メタデータ） (2025-06-02T04:00:35Z)
Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文参考訳（メタデータ） (2025-03-06T15:29:13Z)
When One LLM Drools, Multi-LLM Collaboration Rules [98.71562711695991]
私たちは、データ、スキル、人々の幅広い多様性を表現するために、マルチLLMコラボレーションを議論しています。既存のマルチLLM協調手法を,アクセスレベルと情報交換レベルに基づいて階層構造に整理する。コンポジションインテリジェンスとコラボレーティブAI開発への不可欠な道として,マルチLLMコラボレーションを構想する。
論文参考訳（メタデータ） (2025-02-06T21:13:44Z)
When Text Embedding Meets Large Language Model: A Comprehensive Survey [17.263184207651072]
この調査は、大きな言語モデル(LLM)とテキスト埋め込みの相互作用に焦点を当てている。様々な研究および応用分野からの貢献の、新しく体系的な概要を提供する。この分析に基づいて,テキスト埋め込みの進化に向けた今後の方向性を概説する。
論文参考訳（メタデータ） (2024-12-12T10:50:26Z)
FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文参考訳（メタデータ） (2024-11-22T04:09:23Z)
Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks? [6.7065734065794835]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。 MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文参考訳（メタデータ） (2024-11-13T09:37:24Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。 1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文参考訳（メタデータ） (2024-07-16T13:30:14Z)
LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文参考訳（メタデータ） (2024-05-29T17:59:20Z)
Do Large Language Model Understand Multi-Intent Spoken Language ? [5.494472119991781]
この研究は、多言語言語理解(SLU)におけるLarge Language Models(LLM)の利用において、大きなブレークスルーを示すものである。本稿では,マルチインテリジェントSLUアプリケーションにおけるエンティティスロットの利用について再検討する。本稿では,複雑なマルチインテント通信の分析と解釈を増幅するために,サブインテントインストラクション(SII)の概念を導入する。
論文参考訳（メタデータ） (2024-03-07T13:30:52Z)
Evolutionary Computation in the Era of Large Language Model: Survey and Roadmap [26.959633651475016]
大規模言語モデル(LLM)と進化的アルゴリズム(EA)の相互作用は、複雑な問題における適用可能性の共通の追求を共有している。 LLMに固有の豊富なドメイン知識により、EAはよりインテリジェントな検索を行うことができる。本稿では、相互インスピレーションを2つの主要な道に分類する、徹底的なレビューと前方のロードマップを提供する。
論文参考訳（メタデータ） (2024-01-18T14:58:17Z)
How to Bridge the Gap between Modalities: A Comprehensive Survey on Multimodal Large Language Model [12.890344377484759]
本稿では,MLLM(Multimodal Large Language Models)について概説する。 MLLMはGPT-4のような大規模言語モデル(LLM)を統合し、テキストやビジョンなどのマルチモーダルデータを処理する。適切なモダリティアライメント法を選択することは重要である。
論文参考訳（メタデータ） (2023-11-10T09:51:24Z)
A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文参考訳（メタデータ） (2023-06-23T15:21:52Z)
Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文参考訳（メタデータ） (2023-06-22T07:57:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。