論文の概要: OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
- arxiv url: http://arxiv.org/abs/2510.15870v2
- Date: Mon, 27 Oct 2025 19:12:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 17:50:20.156093
- Title: OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
- Title(参考訳): OmniVinci: Omni-Modal Understanding LLMのためのアーキテクチャとデータ強化
- Authors: Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang, Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Yao Lu, Oluwatobi Olabiyi, Yu-Chiang Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin, Pavlo Molchanov,
- Abstract要約: 我々はOmniVinciを紹介します。OmniVinciは強力でオープンソースのOmni-modal LLMを構築するためのイニシアチブです。
モデルアーキテクチャでは、(i)OmniAlignNetで視覚とオーディオの埋め込みのアライメントを強化する方法、(ii)視覚と音声信号の時間的アライメントをキャプチャするための時間的エンベディンググループ、(iii)オムニモーダル埋め込みにおける絶対時間的情報をエンコードするための制約付きロータリー時間エンベディングという3つの重要なイノベーションを提示する。
- 参考スコア(独自算出の注目度): 146.029449832893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancing machine intelligence requires developing the ability to perceive across multiple modalities, much as humans sense the world. We introduce OmniVinci, an initiative to build a strong, open-source, omni-modal LLM. We carefully study the design choices across model architecture and data curation. For model architecture, we present three key innovations: (i) OmniAlignNet for strengthening alignment between vision and audio embeddings in a shared omni-modal latent space; (ii) Temporal Embedding Grouping for capturing relative temporal alignment between vision and audio signals; and (iii) Constrained Rotary Time Embedding for encoding absolute temporal information in omni-modal embeddings. We introduce a curation and synthesis pipeline that generates 24M single-modal and omni-modal conversations. We find that modalities reinforce one another in both perception and reasoning. Our model, OmniVinci, outperforms Qwen2.5-Omni with +19.05 on DailyOmni (cross-modal understanding), +1.7 on MMAR (audio), and +3.9 on Video-MME (vision), while using just 0.2T training tokens - a 6 times reduction compared to Qwen2.5-Omni's 1.2T. We finally demonstrate omni-modal advantages in downstream applications spanning robotics, medical AI, and smart factory.
- Abstract(参考訳): マシンインテリジェンスの向上には、人間が世界を感じるように、複数のモダリティをまたいで知覚する能力を開発する必要がある。
我々はOmniVinciを紹介します。OmniVinciは強力でオープンソースのOmni-modal LLMを構築するためのイニシアチブです。
モデルアーキテクチャとデータキュレーションにおける設計選択について慎重に検討する。
モデルアーキテクチャには3つの重要なイノベーションがあります。
i)OmniAlignNet 共有Omni-Modal潜伏空間における視覚とオーディオの埋め込みの整合性強化
二 視覚と音声信号の相対的時間的アライメントを捉えるための時間的埋め込みグループ化
三 オールニモーダル埋め込みにおいて絶対時間情報を符号化するための制約付き回転時間埋め込み
単一モーダルおよび全モーダルの会話を2400万回生成するキュレーションと合成パイプラインを導入する。
モダリティは知覚と推論の両方において相互に強化される。
我々のモデルであるOmniVinciは、DailyOmniで+19.05、MMARで+1.7、ビデオMMEで+3.9でQwen2.5-Omniを上回ります。
ついに私たちは、ロボット工学、医療AI、スマートファクトリにまたがるダウンストリームアプリケーションにおいて、Omni-modalのアドバンテージを実証しました。
関連論文リスト
- Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception [97.32606786622728]
我々は、データパイプライン、モデル、ベンチマークの観点から、Omniの詳細な認識を体系的で包括的に調査する。
ツールコールを統合したエージェントデータ生成パイプラインであるOmni-Detectiveを提案する。
Omni-Detectiveで生成されたデータに基づいて、2つのキャプションモデル:音声のみの詳細な知覚のためのオーディオ・キャプション・キャプション・モデルと、音声視覚による詳細な知覚のためのOmni-Captionerを訓練する。
論文 参考訳(メタデータ) (2025-10-14T17:00:09Z) - OmniEval: A Benchmark for Evaluating Omni-modal Models with Visual, Auditory, and Textual Inputs [19.214764707089884]
オムニエバル(OmniEval)は、オムニモダリティモデルを評価するためのベンチマークである。
音声と映像の強い結合を強調する評価タスクを設計する。
いくつかのOmni-modalityモデルを用いてOmniEvalの実験を行う。
論文 参考訳(メタデータ) (2025-06-26T02:54:24Z) - OmniMMI: A Comprehensive Multi-modal Interaction Benchmark in Streaming Video Contexts [46.77966058862399]
我々は,OmniLLMs用に最適化された総合マルチモーダルインタラクションベンチマークであるOmniMMIを紹介する。
本稿では,マルチモーダル・マルチプレクサリング・モデリング(M4)を提案する。
論文 参考訳(メタデータ) (2025-03-29T02:46:58Z) - Ola: Pushing the Frontiers of Omni-Modal Language Model [88.72389428177942]
我々はOlaについて述べる。Olaは、画像、ビデオ、音声の理解間での競合性能を実現するオムニモーダル言語モデルである。
Olaは、いくつかの重要かつ効果的な改善を通じて、高度な視覚的理解と音声認識機能を備えている。
我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文 参考訳(メタデータ) (2025-02-06T18:59:55Z) - Baichuan-Omni-1.5 Technical Report [78.49101296394218]
Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。
マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。
第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
論文 参考訳(メタデータ) (2025-01-26T02:19:03Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。