論文の概要: ROMA: Real-time Omni-Multimodal Assistant with Interactive Streaming Understanding
- arxiv url: http://arxiv.org/abs/2601.10323v1
- Date: Thu, 15 Jan 2026 12:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.125335
- Title: ROMA: Real-time Omni-Multimodal Assistant with Interactive Streaming Understanding
- Title(参考訳): ROMA:対話型ストリーミング理解を備えたリアルタイムOmni-Multimodalアシスタント
- Authors: Xueyun Tian, Wei Li, Bingbing Xu, Heng Dong, Yuanzhuo Wang, Huawei Shen,
- Abstract要約: 本稿では,実時間オムニ・マルチモーダル・アシスタントであるROMAについて述べる。
ROMAは連続的な入力を同期マルチモーダル単位として処理し、密度の高いオーディオを離散ビデオフレームと整列させて粒度のミスマッチを処理する。
オンライン意思決定では、応答開始を生成から切り離して正確なトリガーを確実にする軽量なスポークヘッドを導入する。
- 参考スコア(独自算出の注目度): 32.72568710955575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Omni-multimodal Large Language Models show promise in unified audio, vision, and text modeling. However, streaming audio-video understanding remains challenging, as existing approaches suffer from disjointed capabilities: they typically exhibit incomplete modality support or lack autonomous proactive monitoring. To address this, we present ROMA, a real-time omni-multimodal assistant for unified reactive and proactive interaction. ROMA processes continuous inputs as synchronized multimodal units, aligning dense audio with discrete video frames to handle granularity mismatches. For online decision-making, we introduce a lightweight speak head that decouples response initiation from generation to ensure precise triggering without task conflict. We train ROMA with a curated streaming dataset and a two-stage curriculum that progressively optimizes for streaming format adaptation and proactive responsiveness. To standardize the fragmented evaluation landscape, we reorganize diverse benchmarks into a unified suite covering both proactive (alert, narration) and reactive (QA) settings. Extensive experiments across 12 benchmarks demonstrate ROMA achieves state-of-the-art performance on proactive tasks while competitive in reactive settings, validating its robustness in unified real-time omni-multimodal understanding.
- Abstract(参考訳): 最近のOmni-multimodal Large Language Modelsは、統合オーディオ、ビジョン、テキストモデリングにおいて有望であることを示している。
しかし、既存のアプローチでは、不完全なモダリティサポートや自律的なプロアクティブモニタリングの欠如など、相容れない能力に悩まされているため、ストリーミングオーディオビデオの理解は依然として困難である。
これを解決するために,実時間オムニ・マルチモーダル・アシスタントのROMAを提案する。
ROMAは連続的な入力を同期マルチモーダル単位として処理し、密度の高いオーディオを離散ビデオフレームと整列させて粒度のミスマッチを処理する。
オンライン意思決定では、タスクの衝突なしに正確なトリガを確実にするために、応答開始を生成から切り離す軽量なスポークヘッドを導入する。
我々は、ストリーミングデータセットをキュレートしたROMAと、ストリーミングフォーマット適応とプロアクティブ応答性のために段階的に最適化する2段階のカリキュラムをトレーニングする。
断片化された評価環境を標準化するために、さまざまなベンチマークをプロアクティブ(アラート、ナレーション)とリアクティブ(QA)設定の両方をカバーする統一スイートに再構成した。
12ベンチマークにわたる大規模な実験は、ROMAがリアクティブな設定で競争しながら、プロアクティブなタスクの最先端のパフォーマンスを達成し、その堅牢性をリアルタイムのOmni-multimodalな理解で検証していることを示している。
関連論文リスト
- OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding [23.176694412214157]
オムニアジェント(OmniAgent)は、完全音声誘導能動的知覚エージェントである。
本稿では、受動応答生成からアクティブマルチモーダル探索へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-12-29T17:59:05Z) - LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation [35.01134463094784]
汎用多目的対話型AIシステムを構築するためには,拡散によるリアルタイムビデオ生成が不可欠である。
既存の蒸留法では、モデルが自己回帰し、サンプリング工程を減らしてこれを緩和することができる。
本論文は,テキスト,画像,音声を含むマルチモーダル環境下でのリアルタイム対話型ビデオ拡散を目標とし,そのギャップを埋める。
論文 参考訳(メタデータ) (2025-12-29T16:17:36Z) - MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation [59.23161833385837]
音声対話理解・生成のための新しいマルチモーダルフレームワークMAViDを提案する。
本フレームワークは,ユーザのマルチモーダルクエリを正確に解釈し,鮮明かつコンテキスト的にコヒーレントなロングデュレーション対話を生成できる。
論文 参考訳(メタデータ) (2025-12-02T18:55:53Z) - OmniMotion-X: Versatile Multimodal Whole-Body Motion Generation [52.579531290307926]
本稿では,全身動作生成のための汎用フレームワークであるOmniMotion-Xを紹介する。
OmniMotion-Xは、テキスト・トゥ・モーション、音楽・トゥ・ダンス、音声・トゥ・ジェスチャなど、多様なマルチモーダルタスクを効率的にサポートする。
高品質なマルチモーダルトレーニングを実現するため,これまでで最大の統合マルチモーダルモーションデータセットであるOmniMoCap-Xを構築した。
論文 参考訳(メタデータ) (2025-10-22T17:25:33Z) - GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。
DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。
MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文 参考訳(メタデータ) (2025-08-03T10:44:24Z) - AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation [65.06374691172061]
マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。
既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。
本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
論文 参考訳(メタデータ) (2025-04-29T10:56:24Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。