論文の概要: From Specific-MLLM to Omni-MLLM: A Survey about the MLLMs alligned with Multi-Modality
- arxiv url: http://arxiv.org/abs/2412.11694v1
- Date: Mon, 16 Dec 2024 12:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:45.021881
- Title: From Specific-MLLM to Omni-MLLM: A Survey about the MLLMs alligned with Multi-Modality
- Title(参考訳): 特定MLLMからOmni-MLLMへ:マルチモーダルを考慮したMLLMに関する調査
- Authors: Shixin Jiang, Jiafeng Liang, Ming Liu, Bing Qin,
- Abstract要約: オムニ・MLLMは、異なるモダリティの特徴を異なる「外部言語」として扱い、統一された空間内での相互モーダル相互作用と理解を可能にする。
我々はまず,Omni-MLLMの4つのコアコンポーネントについて説明する。
次に,「アライメント事前学習」と「インストラクション微調整」によって達成された効果的な統合について紹介し,オープンソースデータセットとインタラクション機能のテストについて議論する。
- 参考スコア(独自算出の注目度): 19.993168415649976
- License:
- Abstract: From the Specific-MLLM, which excels in single-modal tasks, to the Omni-MLLM, which extends the range of general modalities, this evolution aims to achieve understanding and generation of multimodal information. Omni-MLLM treats the features of different modalities as different "foreign languages," enabling cross-modal interaction and understanding within a unified space. To promote the advancement of related research, we have compiled 47 relevant papers to provide the community with a comprehensive introduction to Omni-MLLM. We first explain the four core components of Omni-MLLM for unified modeling and interaction of multiple modalities. Next, we introduce the effective integration achieved through "alignment pretraining" and "instruction fine-tuning," and discuss open-source datasets and testing of interaction capabilities. Finally, we summarize the main challenges facing current Omni-MLLM and outline future directions.
- Abstract(参考訳): 単一モーダルタスクに優れる具体的MLLMから、一般的なモダリティの範囲を広げるOmni-MLLMまで、この進化は多モーダル情報の理解と生成の実現を目的としている。
オムニ・MLLMは、異なるモダリティの特徴を異なる「外部言語」として扱い、統一された空間内での相互モーダル相互作用と理解を可能にする。
関連研究の進展を促進するため,Omni-MLLMの総合的な紹介をコミュニティに提供するため,47件の関連論文をまとめた。
我々はまず,Omni-MLLMの4つのコアコンポーネントについて説明する。
次に,「アライメント事前学習」と「インストラクション微調整」によって達成された効果的な統合について紹介し,オープンソースデータセットとインタラクション機能のテストについて議論する。
最後に、現在のOmni-MLLMに直面する主な課題を概説し、今後の方向性を概説する。
関連論文リスト
- When One LLM Drools, Multi-LLM Collaboration Rules [98.71562711695991]
私たちは、データ、スキル、人々の幅広い多様性を表現するために、マルチLLMコラボレーションを議論しています。
既存のマルチLLM協調手法を,アクセスレベルと情報交換レベルに基づいて階層構造に整理する。
コンポジションインテリジェンスとコラボレーティブAI開発への不可欠な道として,マルチLLMコラボレーションを構想する。
論文 参考訳(メタデータ) (2025-02-06T21:13:44Z) - When Text Embedding Meets Large Language Model: A Comprehensive Survey [17.263184207651072]
テキスト埋め込みは、ディープラーニング時代に自然言語処理(NLP)の基礎技術となった。
大規模言語モデル(LLM)と3つの主題に埋め込まれたテキストの相互作用を分類する。
我々は,LLM 以前の言語モデル (PLM) を用いて,LLM 以前の未解決課題を強調し,LLM がもたらした新たな障害を探求する。
論文 参考訳(メタデータ) (2024-12-12T10:50:26Z) - Leveraging the Power of LLMs: A Fine-Tuning Approach for High-Quality Aspect-Based Summarization [25.052557735932535]
大規模言語モデル(LLM)は、自然言語処理における多様なタスクに革命をもたらす可能性を実証している。
本稿ではアスペクトベース要約タスクにおける微調整LDMの可能性について検討する。
我々は,Llama2,Mistral,Gemma,Ayaなどオープンソースファウンデーションの微調整が,パブリックドメイン固有のアスペクトベース要約データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-05T16:00:21Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。
これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。
我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文 参考訳(メタデータ) (2024-05-29T17:59:20Z) - Evolutionary Computation in the Era of Large Language Model: Survey and Roadmap [26.959633651475016]
大規模言語モデル(LLM)と進化的アルゴリズム(EA)の相互作用は、複雑な問題における適用可能性の共通の追求を共有している。
LLMに固有の豊富なドメイン知識により、EAはよりインテリジェントな検索を行うことができる。
本稿では、相互インスピレーションを2つの主要な道に分類する、徹底的なレビューと前方のロードマップを提供する。
論文 参考訳(メタデータ) (2024-01-18T14:58:17Z) - Exploring the Reasoning Abilities of Multimodal Large Language Models
(MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning [44.12214030785711]
マルチモーダル大言語モデル(MLLM)のフロンティアを分類・記述し、既存のマルチモーダル推論の評価プロトコルについて概観する。
本稿では,MLLMの推論集約型タスクへの適用動向を紹介するとともに,現在の実践と今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-01-10T15:29:21Z) - A Comprehensive Overview of Large Language Models [68.22178313875618]
大規模言語モデル(LLM)は、最近自然言語処理タスクにおいて顕著な機能を示した。
本稿では, LLM関連概念の幅広い範囲について, 既存の文献について概説する。
論文 参考訳(メタデータ) (2023-07-12T20:01:52Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。