論文の概要: Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
- arxiv url: http://arxiv.org/abs/2506.13642v1
- Date: Mon, 16 Jun 2025 16:06:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.906639
- Title: Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
- Title(参考訳): ストリームオムニ:大規模言語ビジョン音声モデルによる同時多モーダルインタラクション
- Authors: Shaolei Zhang, Shoutao Guo, Qingkai Fang, Yan Zhou, Yang Feng,
- Abstract要約: Stream-Omniは、効率的なモダリティアライメントを備えた大きな言語ビジョン音声モデルである。
様々なモダリティの組み合わせの下での相互作用を同時にサポートすることができる。
視覚的理解、音声対話、および視覚的な音声対話タスクにおいて、高いパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 43.533849239738394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of GPT-4o-like large multimodal models (LMMs) has raised the exploration of integrating text, vision, and speech modalities to support more flexible multimodal interaction. Existing LMMs typically concatenate representation of modalities along the sequence dimension and feed them into a large language model (LLM) backbone. While sequence-dimension concatenation is straightforward for modality integration, it often relies heavily on large-scale data to learn modality alignments. In this paper, we aim to model the relationships between modalities more purposefully, thereby achieving more efficient and flexible modality alignments. To this end, we propose Stream-Omni, a large language-vision-speech model with efficient modality alignments, which can simultaneously support interactions under various modality combinations. Stream-Omni employs LLM as the backbone and aligns the vision and speech to the text based on their relationships. For vision that is semantically complementary to text, Stream-Omni uses sequence-dimension concatenation to achieve vision-text alignment. For speech that is semantically consistent with text, Stream-Omni introduces a CTC-based layer-dimension mapping to achieve speech-text alignment. In this way, Stream-Omni can achieve modality alignments with less data (especially speech), enabling the transfer of text capabilities to other modalities. Experiments on various benchmarks demonstrate that Stream-Omni achieves strong performance on visual understanding, speech interaction, and vision-grounded speech interaction tasks. Owing to the layer-dimensional mapping, Stream-Omni can simultaneously provide intermediate text outputs (such as ASR transcriptions and model responses) during speech interaction, offering users a comprehensive multimodal experience.
- Abstract(参考訳): GPT-4oのような大型マルチモーダルモデル(LMM)の出現により、より柔軟なマルチモーダルインタラクションをサポートするために、テキスト、ビジョン、および音声モダリティの統合の探求が進められている。
既存のLMMは典型的には、配列次元に沿ってモダリティの表現を結合し、それらを大きな言語モデル(LLM)のバックボーンに供給する。
シーケンス次元連結は、モダリティ統合にとって単純であるが、しばしば、モダリティアライメントを学ぶために大規模なデータに大きく依存する。
本稿では,モダリティ間の関係をより意図的にモデル化し,より効率的かつ柔軟なモダリティアライメントを実現することを目的とする。
この目的のために,様々なモータリティの組み合わせによる相互作用を同時に支援できる,効率的なモータリティアライメントを持つ大規模言語ビジョン音声モデルStream-Omniを提案する。
Stream-OmniはLLMをバックボーンとして使用し、その関係に基づいてビジョンとスピーチをテキストに整列させる。
意味的にテキストに相補的な視覚では、Stream-Omniはシーケンス次元結合を用いて視覚テキストアライメントを実現する。
テキストと意味的に一致した音声に対して、Stream-OmniはCTCベースの層次元マッピングを導入し、音声テキストアライメントを実現する。
これにより、Stream-Omniは少ないデータ(特に音声)でモダリティアライメントを達成でき、テキスト機能を他のモダリティに転送することができる。
様々なベンチマーク実験により、Stream-Omniは、視覚的理解、音声インタラクション、および視覚的接地された音声インタラクションタスクにおいて、強力なパフォーマンスを達成することが示された。
層次元マッピングにより、Stream-Omniは音声対話中に中間テキスト出力(ASR文字起こしやモデル応答など)を同時に提供し、ユーザに包括的なマルチモーダル体験を提供する。
関連論文リスト
- Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。
自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文 参考訳(メタデータ) (2024-01-12T06:28:54Z) - A Self-Adjusting Fusion Representation Learning Model for Unaligned
Text-Audio Sequences [16.38826799727453]
融合表現を学習するために各モダリティの関連情報を統合する方法は、マルチモーダル学習における中心的な課題の1つとなっている。
本稿では,不整合テキストや音声シーケンスから直接,頑健な相互拡散表現を学習するために,自己調整型融合表現学習モデルを提案する。
実験結果から,本モデルでは不整合テキスト・オーディオ・シーケンスにおける全ての指標の性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2022-11-12T13:05:28Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。