論文の概要: Mini-Omni2: Towards Open-source GPT-4o Model with Vision, Speech and Duplex
- arxiv url: http://arxiv.org/abs/2410.11190v1
- Date: Tue, 15 Oct 2024 02:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:20.953008
- Title: Mini-Omni2: Towards Open-source GPT-4o Model with Vision, Speech and Duplex
- Title(参考訳): Mini-Omni2:ビジョン、音声、二重化を備えたオープンソースのGPT-4oモデルを目指して
- Authors: Zhifei Xie, Changqiao Wu,
- Abstract要約: Mini-Omni2は、ユーザビデオと音声クエリにリアルタイム、エンドツーエンドの音声応答を提供するビジュアルオーディオアシスタントである。
限られたデータセットでトレーニングした後、言語モデルでマルチモーダル入力と出力を処理できる3段階のトレーニングプロセスを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: GPT4o, an all-encompassing model, represents a milestone in the development of multi-modal large models. It can understand visual, auditory, and textual modalities, directly output audio, and support flexible duplex interaction. However, its technical framework is not open-sourced. Models from the open-source community often achieve some functionalities of GPT4o, such as visual understanding and voice dialogue. Nevertheless, training a unified model that incorporates all modalities is challenging due to the complexities of multi-modal data, intricate model architectures, and training processes. In this paper, we introduce Mini-Omni2, a visual-audio assistant capable of providing real-time, end-to-end voice responses to user video and voice queries, while also incorporating auditory capabilities. By integrating pretrained visual and auditory encoders, Mini-Omni2 maintains strong performance in individual modalities. We propose a three-stage training process to align modalities, allowing the language model to handle multi-modal inputs and outputs after training on a limited dataset. For interaction, we introduce a semantic-based interruption mechanism, enabling more flexible dialogues with users. All modeling approaches and data construction methods will be open-sourced. To the best of our knowledge, Mini-Omni2 is one of the models closest to GPT4o in functionality, and we hope it can offer valuable insights for subsequent research.
- Abstract(参考訳): GPT4oは、全アクセスモデルであり、マルチモーダルな大規模モデルの開発におけるマイルストーンである。
視覚、聴覚、テキストのモダリティを理解し、直接音声を出力し、柔軟な二重相互作用をサポートする。
しかし、その技術フレームワークはオープンソースではない。
オープンソースコミュニティのモデルは、視覚的理解や音声対話など、GPT4oのいくつかの機能を達成することが多い。
それでも、マルチモーダルデータ、複雑なモデルアーキテクチャ、トレーニングプロセスの複雑さのため、すべてのモダリティを組み込んだ統一モデルのトレーニングは困難である。
本稿では,ユーザビデオや音声クエリに対して,リアルタイム,エンドツーエンドの音声応答を提供すると同時に,聴覚機能を取り入れた視覚音声アシスタントであるMini-Omni2を紹介する。
事前訓練された視覚エンコーダと聴覚エンコーダを統合することで、Mini-Omni2は個々のモードで高い性能を維持することができる。
限られたデータセットでトレーニングした後、言語モデルでマルチモーダル入力と出力を処理できる3段階のトレーニングプロセスを提案する。
インタラクションのために,ユーザとのより柔軟な対話を可能にするセマンティックベースの割り込み機構を導入する。
すべてのモデリング手法とデータ構築方法がオープンソース化される。
私たちの知る限り、Mini-Omni2は機能面でGPT4oに最も近いモデルの1つです。
関連論文リスト
- Ocean-omni: To Understand the World with Omni-modality [28.306965534325904]
Ocean-omniは、最初のオープンソース 7B Multimodal Large Language Model (MLLM) である。
世界初のオープンソース7Bマルチモーダル大言語モデル(MLLM)であるOcean-omniを紹介する。
論文 参考訳(メタデータ) (2024-10-11T06:44:31Z) - MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。
MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文 参考訳(メタデータ) (2024-09-26T09:57:16Z) - Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming [0.0]
ミニオムニ(Mini-Omni)は、リアルタイム音声対話が可能な音声ベースのエンドツーエンド会話モデルである。
そこで本研究では,テキストによる音声生成手法と,推論中のバッチ並列戦略を併用して,性能を向上させる手法を提案する。
また、最適化音声出力のための微調整モデルにVoiceAssistant-400Kデータセットを導入する。
論文 参考訳(メタデータ) (2024-08-29T17:18:53Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z) - ONE-PEACE: Exploring One General Representation Model Toward Unlimited
Modalities [71.15303690248021]
ONE-PEACEは、4Bパラメータを持つ高モデルで、視覚、オーディオ、言語モダリティ間の表現をシームレスに整列し統合することができる。
ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。
スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。
論文 参考訳(メタデータ) (2023-05-18T17:59:06Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Audio-Oriented Multimodal Machine Comprehension: Task, Dataset and Model [51.42415340921237]
我々は2つのモード(音声とテキスト)を融合させる動的モダリティ・イントラモダリティ・アテンション(DIIA)モデルを提案する。
さらに,マルチモーダルMCモデルを用いて,テキストや音声のみに基づいて,回答を正確に予測できるマルチモーダル知識蒸留(MKD)モジュールを開発した。
論文 参考訳(メタデータ) (2021-07-04T08:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。