Fugu-MT 論文翻訳(概要): Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

論文の概要: Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model

arxiv url: http://arxiv.org/abs/2506.13642v1
Date: Mon, 16 Jun 2025 16:06:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:48.906639
Title: Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
Title（参考訳）: ストリームオムニ:大規模言語ビジョン音声モデルによる同時多モーダルインタラクション
Authors: Shaolei Zhang, Shoutao Guo, Qingkai Fang, Yan Zhou, Yang Feng,
Abstract要約: Stream-Omniは、効率的なモダリティアライメントを備えた大きな言語ビジョン音声モデルである。様々なモダリティの組み合わせの下での相互作用を同時にサポートすることができる。視覚的理解、音声対話、および視覚的な音声対話タスクにおいて、高いパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 43.533849239738394
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of GPT-4o-like large multimodal models (LMMs) has raised the exploration of integrating text, vision, and speech modalities to support more flexible multimodal interaction. Existing LMMs typically concatenate representation of modalities along the sequence dimension and feed them into a large language model (LLM) backbone. While sequence-dimension concatenation is straightforward for modality integration, it often relies heavily on large-scale data to learn modality alignments. In this paper, we aim to model the relationships between modalities more purposefully, thereby achieving more efficient and flexible modality alignments. To this end, we propose Stream-Omni, a large language-vision-speech model with efficient modality alignments, which can simultaneously support interactions under various modality combinations. Stream-Omni employs LLM as the backbone and aligns the vision and speech to the text based on their relationships. For vision that is semantically complementary to text, Stream-Omni uses sequence-dimension concatenation to achieve vision-text alignment. For speech that is semantically consistent with text, Stream-Omni introduces a CTC-based layer-dimension mapping to achieve speech-text alignment. In this way, Stream-Omni can achieve modality alignments with less data (especially speech), enabling the transfer of text capabilities to other modalities. Experiments on various benchmarks demonstrate that Stream-Omni achieves strong performance on visual understanding, speech interaction, and vision-grounded speech interaction tasks. Owing to the layer-dimensional mapping, Stream-Omni can simultaneously provide intermediate text outputs (such as ASR transcriptions and model responses) during speech interaction, offering users a comprehensive multimodal experience.
Abstract（参考訳）: GPT-4oのような大型マルチモーダルモデル(LMM)の出現により、より柔軟なマルチモーダルインタラクションをサポートするために、テキスト、ビジョン、および音声モダリティの統合の探求が進められている。既存のLMMは典型的には、配列次元に沿ってモダリティの表現を結合し、それらを大きな言語モデル(LLM)のバックボーンに供給する。シーケンス次元連結は、モダリティ統合にとって単純であるが、しばしば、モダリティアライメントを学ぶために大規模なデータに大きく依存する。本稿では,モダリティ間の関係をより意図的にモデル化し,より効率的かつ柔軟なモダリティアライメントを実現することを目的とする。この目的のために,様々なモータリティの組み合わせによる相互作用を同時に支援できる,効率的なモータリティアライメントを持つ大規模言語ビジョン音声モデルStream-Omniを提案する。 Stream-OmniはLLMをバックボーンとして使用し、その関係に基づいてビジョンとスピーチをテキストに整列させる。意味的にテキストに相補的な視覚では、Stream-Omniはシーケンス次元結合を用いて視覚テキストアライメントを実現する。テキストと意味的に一致した音声に対して、Stream-OmniはCTCベースの層次元マッピングを導入し、音声テキストアライメントを実現する。これにより、Stream-Omniは少ないデータ(特に音声)でモダリティアライメントを達成でき、テキスト機能を他のモダリティに転送することができる。様々なベンチマーク実験により、Stream-Omniは、視覚的理解、音声インタラクション、および視覚的接地された音声インタラクションタスクにおいて、強力なパフォーマンスを達成することが示された。層次元マッピングにより、Stream-Omniは音声対話中に中間テキスト出力(ASR文字起こしやモデル応答など)を同時に提供し、ユーザに包括的なマルチモーダル体験を提供する。

関連論文リスト

GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。 DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。 MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文参考訳（メタデータ） (2025-08-03T10:44:24Z)
Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations [33.11867433769496]
本稿では,共有意味表現における視覚的理解と生成を統一する枠組みを提案する。中心となるのはText-Aligned Tokenizer (TA-Tok) で、これは大きな言語モデル(LLM)の語彙から投影されたテキスト整列コードブックを用いて画像を個別のトークンに変換する。ベンチマークによる実験では、Tarは既存のマルチモーダルLLMメソッドと一致し、より高速な収束とトレーニング効率の向上を実現している。
論文参考訳（メタデータ） (2025-06-23T17:59:14Z)
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文参考訳（メタデータ） (2024-12-30T14:09:15Z)
Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文参考訳（メタデータ） (2024-07-23T02:23:51Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文参考訳（メタデータ） (2024-01-12T06:28:54Z)
Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文参考訳（メタデータ） (2023-12-05T06:02:21Z)
TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models [69.49978333446538]
TEALは任意のモダリティからの入力をトークンシーケンスとして扱うアプローチである。トークンシーケンスを学習可能な埋め込み行列で結合埋め込み空間に埋め込む。実験により、TEALはマルチモーダル理解を大幅に改善することが示された。
論文参考訳（メタデータ） (2023-11-08T10:34:16Z)
A Self-Adjusting Fusion Representation Learning Model for Unaligned Text-Audio Sequences [16.38826799727453]
融合表現を学習するために各モダリティの関連情報を統合する方法は、マルチモーダル学習における中心的な課題の1つとなっている。本稿では,不整合テキストや音声シーケンスから直接,頑健な相互拡散表現を学習するために,自己調整型融合表現学習モデルを提案する。実験結果から,本モデルでは不整合テキスト・オーディオ・シーケンスにおける全ての指標の性能が大幅に向上したことが示された。
論文参考訳（メタデータ） (2022-11-12T13:05:28Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。