論文の概要: RoboEgo System Card: An Omnimodal Model with Native Full Duplexity
- arxiv url: http://arxiv.org/abs/2506.01934v1
- Date: Mon, 02 Jun 2025 17:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.687359
- Title: RoboEgo System Card: An Omnimodal Model with Native Full Duplexity
- Title(参考訳): RoboEgo System Card: ネイティブ・フル・デュプレクティリティを持つOmnimodal Model
- Authors: Yiqun Yao, Xiang Li, Xin Jiang, Xuezhi Fang, Naitong Yu, Aixin Sun, Yequan Wang,
- Abstract要約: RoboEgo (別名:FLM-Ego)は、両方の課題に対処するために設計された統一モデルシステムである。
FLM-Egoにはバックボーンとアルゴリズムが組み込まれており、80ミリ秒のレイテンシの理論的二重化を実現している。
- 参考スコア(独自算出の注目度): 48.52383812141669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans naturally process real-world multimodal information in a full-duplex manner. In artificial intelligence, replicating this capability is essential for advancing model development and deployment, particularly in embodied contexts. The development of multimodal models faces two primary challenges: (1) effectively handling more than three modalities-such as vision, audio, and text; and (2) delivering full-duplex responses to rapidly evolving human instructions. To facilitate research on models that support both omnimodal processing and full duplexity, we present RoboEgo (alias: FLM-Ego), a unified model system designed to address both challenges. RoboEgo incorporates a backbone architecture and algorithms that natively support full duplexity, achieving a theoretical duplex latency of 80 ms. In streaming visually grounded conversations under real-world conditions, RoboEgo exhibits superior responsiveness and speech naturalness, while maintaining comparable content qualities to state-of-the-art semi-duplex omnimodal models-a feat previously considered unattainable by native full-duplex systems.
- Abstract(参考訳): 人間は自然に実世界のマルチモーダル情報を二重に処理する。
人工知能では、この能力を複製することは、特に具体的コンテキストにおいて、モデルの開発と展開を進めるために不可欠である。
マルチモーダルモデルの開発には,(1)視覚,音声,テキストなど3つ以上のモダリティを効果的に扱うこと,(2)急速に進化する人間の指示に対する完全な二重応答を実現すること,の2つの課題がある。
両課題に対処するための統一モデルシステムであるRoboEgo(別名:FLM-Ego)を提案する。
RoboEgoにはバックボーンアーキテクチャとアルゴリズムが組み込まれており、完全二重性(full Duplexity)をネイティブにサポートし、理論的に2倍のレイテンシを80ミリ秒で達成している。実世界の条件下での視覚的に基盤付けられた会話のストリーミングにおいて、RoboEgoはより優れた応答性と音声の自然性を示しながら、最先端の半二重モードモデルに匹敵するコンテンツ品質を維持している。以前はネイティブのフル二重システムでは実現不可能と考えられていた成果だ。
関連論文リスト
- Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities [0.0]
Mini-Omni2はヴィソインとオーディオクエリにリアルタイム、エンドツーエンドの音声応答を提供するビジュアルオーディオアシスタントである。
限られたデータセットでトレーニングした後、言語モデルでマルチモーダル入力と出力を処理できる3段階のトレーニングプロセスを提案する。
論文 参考訳(メタデータ) (2024-10-15T02:10:45Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - AllSpark: A Multimodal Spatio-Temporal General Intelligence Model with Ten Modalities via Language as a Reference Framework [21.10693332367192]
マルチモーダル時間汎用人工知能モデルであるAllSparkを提案する。
私たちのモデルは10の異なるモダリティを統一されたフレームワークに統合します。
実験により、AllSparkは言語を組み込むことで、数ショットの分類タスクで優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-31T17:21:02Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。