論文の概要: InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue
- arxiv url: http://arxiv.org/abs/2510.13747v1
- Date: Wed, 15 Oct 2025 16:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.772499
- Title: InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue
- Title(参考訳): InteractiveOmni: マルチターン音声対話のための統一オムニモーダルモデル
- Authors: Wenwen Tong, Hewei Guo, Dongchuan Ran, Jiangnan Chen, Jiefan Lu, Kaibin Wang, Keqiang Li, Xiaoxu Zhu, Jiakui Li, Kehan Li, Xueheng Li, Lumin Li, Chenxu Guo, Jiasheng Zhou, Jiandong Chen, Xianye Wu, Jiahao Wang, Silei Wu, Lei Chen, Hanming Deng, Yuxuan Song, Dinghao Zhou, Guiping Zhong, Ken Zheng, Shiyin Kang, Lewei Lu,
- Abstract要約: 音声-視覚的マルチターンインタラクションのための,統一的でオープンソースのOmni-Modal大言語モデルであるInteractive Omniを紹介する。
これを実現するために、視覚エンコーダ、オーディオエンコーダ、大言語モデル、音声デコーダを統合モデルに統合し、タスクの理解と生成を行う。
我々は、Omni-modal理解のための事前学習を含む、堅牢なクロスモーダル機能を確保するためのマルチステージトレーニング戦略を設計する。
- 参考スコア(独自算出の注目度): 35.99134148462425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce InteractiveOmni, a unified and open-source omni-modal large language model for audio-visual multi-turn interaction, ranging from 4B to 8B parameters, designed to lead the field of lightweight models by offering comprehensive omni-modal understanding and speech generation capabilities. To achieve this, we integrate the vision encoder, audio encoder, large language model, and speech decoder into a unified model for understanding and generation tasks. We design a multi-stage training strategy to ensure robust cross-modal capabilities, including pre-training for omni-modal understanding, followed by post-training with speech conversation and audio-visual interaction. To enable human-like long-term conversational ability, we meticulously curate a multi-turn training dataset that enhances the model's ability to handle complex and multi-turn interactions. To effectively evaluate the multi-turn memory and speech interaction capabilities, we construct the multi-modal multi-turn memory benchmark and the multi-turn speech interaction benchmark. Experiments demonstrate that InteractiveOmni significantly outperforms leading open-source models and provides a more intelligent multi-turn audio-visual experience, particularly in its long-term memory capabilities. Notably, InteractiveOmni-4B is comparable to the much larger model like Qwen2.5-Omni-7B on general benchmarks, and it can retain 97% of the performance of the InteractiveOmni-8B while utilizing only 50% of the model size. Achieving state-of-the-art results against similarly sized models across image, audio, video understanding, and speech generation tasks, InteractiveOmni is an accessible, open-source foundation for next-generation intelligent interactive systems.
- Abstract(参考訳): 広義のオムニモーダル理解と音声生成機能を提供することで、軽量モデルの分野をリードするように設計された4Bから8Bパラメータを含む、オーディオと視覚のマルチターンインタラクションのための、統一的でオープンソースのオムニモーダルな大言語モデルであるInteractiveOmniを紹介する。
これを実現するために、視覚エンコーダ、オーディオエンコーダ、大言語モデル、音声デコーダを統合モデルに統合し、タスクの理解と生成を行う。
モーダル理解のための事前学習や、音声対話による後学習、音声と視覚の相互作用を含む、堅牢なモーダル機能を確保するためのマルチステージトレーニング戦略を設計する。
人間のような長期的な会話能力を実現するため、複雑な対話やマルチターンインタラクションを扱うモデルの能力を高めるマルチターントレーニングデータセットを慎重にキュレートする。
マルチターンメモリと音声対話機能を効果的に評価するために,マルチモードマルチターンメモリベンチマークとマルチターン音声対話ベンチマークを構築した。
実験によると、InteractiveOmniは主要なオープンソースモデルよりも大幅に優れており、特に長期記憶能力において、よりインテリジェントなマルチターンオーディオ視覚体験を提供する。
注目すべきは、InteractiveOmni-4Bは一般的なベンチマークでQwen2.5-Omni-7Bのようなはるかに大きなモデルに匹敵し、InteractiveOmni-8Bのパフォーマンスの97%を維持しながら、モデルサイズの50%しか利用できないことだ。
InteractiveOmniは、画像、音声、ビデオ理解、および音声生成タスクにまたがる同様のサイズのモデルに対して、最先端の成果を得るために、次世代のインテリジェントなインタラクティブシステムのための、アクセス可能なオープンソースの基盤である。
関連論文リスト
- MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - Baichuan-Omni-1.5 Technical Report [78.49101296394218]
Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。
マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。
第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
論文 参考訳(メタデータ) (2025-01-26T02:19:03Z) - VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction [105.88658935310605]
視覚情報と音声情報の両方を段階的に学習する多段階学習手法を提案する。
提案手法は, 視覚言語能力の強化だけでなく, 音声音声対話の効率向上にも寄与する。
画像, ビデオ, 音声タスクのベンチマークにおいて, 我々の手法を最先端の手法と比較することにより, モデルが強い視覚と音声の両機能を備えていることを示す。
論文 参考訳(メタデータ) (2025-01-03T18:59:52Z) - Data-Centric Improvements for Enhancing Multi-Modal Understanding in Spoken Conversation Modeling [13.628984890958314]
本稿では,対話型音声モデリングにおけるマルチモーダル理解の効率化を目的とした,データ中心のカスタマイズ手法を提案する。
提案手法は,オープンウェイトモデルを用いたトレーニングデータの10%のみを用いて,Spken-SQuADベンチマークの最先端性能を実現する。
また、あいまいなユーザ要求と動的評価入力を備えたマルチターン音声対話のための最初のデータセットであるASK-QAを導入する。
論文 参考訳(メタデータ) (2024-12-20T15:43:09Z) - Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition [57.131546757903834]
Lyraはマルチモーダル能力を向上する効率的なMLLMであり、高度な長音声理解、音声理解、相互モダリティ効率、シームレスな音声対話などが含まれる。
Lyraは様々な視覚言語、視覚音声、音声言語のベンチマークで最先端のパフォーマンスを達成し、計算資源が少なく、訓練データも少ない。
論文 参考訳(メタデータ) (2024-12-12T17:50:39Z) - Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities [0.0]
Mini-Omni2はヴィソインとオーディオクエリにリアルタイム、エンドツーエンドの音声応答を提供するビジュアルオーディオアシスタントである。
限られたデータセットでトレーニングした後、言語モデルでマルチモーダル入力と出力を処理できる3段階のトレーニングプロセスを提案する。
論文 参考訳(メタデータ) (2024-10-15T02:10:45Z) - Baichuan-Omni Technical Report [28.306965534325904]
世界初のオープンソース 7B Multimodal Large Language Model (MLLM) であるBaichuan-omni を紹介する。
Baichuan-omniは画像、ビデオ、オーディオ、テキストのモダリティを同時に処理し分析する能力を持っている。
論文 参考訳(メタデータ) (2024-10-11T06:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。