Fugu-MT 論文翻訳(概要): Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities

論文の概要: Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities

arxiv url: http://arxiv.org/abs/2410.11190v3
Date: Tue, 05 Nov 2024 02:27:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.560754
Title: Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities
Title（参考訳）: Mini-Omni2:ビジョン、音声、二重機能を備えたオープンソースのGPT-4oを目指して
Authors: Zhifei Xie, Changqiao Wu,
Abstract要約: Mini-Omni2はヴィソインとオーディオクエリにリアルタイム、エンドツーエンドの音声応答を提供するビジュアルオーディオアシスタントである。限られたデータセットでトレーニングした後、言語モデルでマルチモーダル入力と出力を処理できる3段階のトレーニングプロセスを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: GPT-4o, an all-encompassing model, represents a milestone in the development of large multi-modal language models. It can understand visual, auditory, and textual modalities, directly output audio, and support flexible duplex interaction. Models from the open-source community often achieve some functionalities of GPT-4o, such as visual understanding and voice chat. Nevertheless, training a unified model that incorporates all modalities is challenging due to the complexities of multi-modal data, intricate model architectures, and training processes. In this paper, we introduce Mini-Omni2, a visual-audio assistant capable of providing real-time, end-to-end voice responses to visoin and audio queries. By integrating pretrained visual and auditory encoders, Mini-Omni2 maintains performance in individual modalities. We propose a three-stage training process to align modalities, allowing the language model to handle multi-modal inputs and outputs after training on a limited dataset. For interaction, we introduce a command-based interruption mechanism, enabling more flexible interaction with users. To the best of our knowledge, Mini-Omni2 is one of the closest reproductions of GPT-4o, which have similar form of functionality, and we hope it can offer valuable insights for subsequent research.
Abstract（参考訳）: GPT-4oは、大規模なマルチモーダル言語モデルの開発におけるマイルストーンである。視覚、聴覚、テキストのモダリティを理解し、直接音声を出力し、柔軟な二重相互作用をサポートする。オープンソースコミュニティのモデルは、視覚的理解や音声チャットなど、GPT-4oの機能を実現することが多い。それでも、マルチモーダルデータ、複雑なモデルアーキテクチャ、トレーニングプロセスの複雑さのため、すべてのモダリティを組み込んだ統一モデルのトレーニングは困難である。本稿では,ビゾインと音声クエリに対して,リアルタイム,エンドツーエンドの音声応答を提供するビジュアルオーディオアシスタントであるMini-Omni2を紹介する。事前訓練された視覚と聴覚のエンコーダを統合することで、Mini-Omni2は個々のモードのパフォーマンスを維持する。限られたデータセットでトレーニングした後、言語モデルでマルチモーダル入力と出力を処理できる3段階のトレーニングプロセスを提案する。インタラクションにはコマンドベースの割り込み機構を導入し,ユーザとのより柔軟なインタラクションを実現する。我々の知る限り、Mini-Omni2は同様の機能を持つGPT-4oの最も近い複製の1つである。

関連論文リスト

InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue [35.99134148462425]
音声-視覚的マルチターンインタラクションのための,統一的でオープンソースのOmni-Modal大言語モデルであるInteractive Omniを紹介する。これを実現するために、視覚エンコーダ、オーディオエンコーダ、大言語モデル、音声デコーダを統合モデルに統合し、タスクの理解と生成を行う。我々は、Omni-modal理解のための事前学習を含む、堅牢なクロスモーダル機能を確保するためのマルチステージトレーニング戦略を設計する。
論文参考訳（メタデータ） (2025-10-15T16:52:48Z)
Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
業界レベルのtextbfomni-perceptive および-interactive モデルである textbfNexus-O を導入し,音声,画像,ビデオ,テキストデータを効率的に処理する。まず、モデルを効率的に設計し、トレーニングして、複数のモダリティにわたるトリモーダルアライメント、理解、推論機能を実現するにはどうすればよいか? 第二に、現実のシナリオにおける信頼性の高いパフォーマンスと適用性を保証するために、トリモーダルモデルの堅牢性を評価するために、どのようなアプローチが実装できるのか? 第3に,高品質で現実的なシナリオをキュレートし,得るための戦略
論文参考訳（メタデータ） (2025-02-26T17:26:36Z)
OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文参考訳（メタデータ） (2024-10-23T11:58:58Z)
Ocean-omni: To Understand the World with Omni-modality [28.306965534325904]
Ocean-omniは、最初のオープンソース 7B Multimodal Large Language Model (MLLM) である。世界初のオープンソース7Bマルチモーダル大言語モデル(MLLM)であるOcean-omniを紹介する。
論文参考訳（メタデータ） (2024-10-11T06:44:31Z)
MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。 MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文参考訳（メタデータ） (2024-09-26T09:57:16Z)
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming [0.0]
ミニオムニ(Mini-Omni)は、リアルタイム音声対話が可能な音声ベースのエンドツーエンド会話モデルである。そこで本研究では,テキストによる音声生成手法と,推論中のバッチ並列戦略を併用して,性能を向上させる手法を提案する。また、最適化音声出力のための微調整モデルにVoiceAssistant-400Kデータセットを導入する。
論文参考訳（メタデータ） (2024-08-29T17:18:53Z)
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-12-28T17:57:06Z)
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities [71.15303690248021]
ONE-PEACEは、4Bパラメータを持つ高モデルで、視覚、オーディオ、言語モダリティ間の表現をシームレスに整列し統合することができる。 ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。
論文参考訳（メタデータ） (2023-05-18T17:59:06Z)
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文参考訳（メタデータ） (2023-04-27T13:27:01Z)
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文参考訳（メタデータ） (2023-02-01T12:40:03Z)
i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文参考訳（メタデータ） (2022-05-03T23:38:50Z)
Audio-Oriented Multimodal Machine Comprehension: Task, Dataset and Model [51.42415340921237]
我々は2つのモード(音声とテキスト)を融合させる動的モダリティ・イントラモダリティ・アテンション(DIIA)モデルを提案する。さらに,マルチモーダルMCモデルを用いて,テキストや音声のみに基づいて,回答を正確に予測できるマルチモーダル知識蒸留(MKD)モジュールを開発した。
論文参考訳（メタデータ） (2021-07-04T08:35:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。