論文の概要: Omni-Embed-Nemotron: A Unified Multimodal Retrieval Model for Text, Image, Audio, and Video
- arxiv url: http://arxiv.org/abs/2510.03458v1
- Date: Fri, 03 Oct 2025 19:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.052115
- Title: Omni-Embed-Nemotron: A Unified Multimodal Retrieval Model for Text, Image, Audio, and Video
- Title(参考訳): Omni-Embed-Nemotron:テキスト、画像、オーディオ、ビデオのための統一マルチモーダル検索モデル
- Authors: Mengyao Xu, Wenfei Zhou, Yauhen Babakhin, Gabriel Moreira, Ronay Ak, Radek Osmulski, Bo Liu, Even Oldridge, Benedikt Schifferer,
- Abstract要約: Omni-Embed-Nemotronは,実世界の情報ニーズの複雑化に対応するために開発された,統合型マルチモーダル検索埋め込みモデルである。
我々は,Omni-Embed-Nemotronのアーキテクチャ,トレーニング設定,評価結果を記述し,テキスト,画像,ビデオ検索においてその有効性を示す。
- 参考スコア(独自算出の注目度): 5.732421858297378
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Omni-Embed-Nemotron, a unified multimodal retrieval embedding model developed to handle the increasing complexity of real-world information needs. While Retrieval-Augmented Generation (RAG) has significantly advanced language models by incorporating external knowledge, existing text-based retrievers rely on clean, structured input and struggle with the visually and semantically rich content found in real-world documents such as PDFs, slides, or videos. Recent work such as ColPali has shown that preserving document layout using image-based representations can improve retrieval quality. Building on this, and inspired by the capabilities of recent multimodal models such as Qwen2.5-Omni, we extend retrieval beyond text and images to also support audio and video modalities. Omni-Embed-Nemotron enables both cross-modal (e.g., text - video) and joint-modal (e.g., text - video+audio) retrieval using a single model. We describe the architecture, training setup, and evaluation results of Omni-Embed-Nemotron, and demonstrate its effectiveness in text, image, and video retrieval.
- Abstract(参考訳): Omni-Embed-Nemotronは,実世界の情報ニーズの複雑化に対応するために開発された,統合型マルチモーダル検索埋め込みモデルである。
Retrieval-Augmented Generation (RAG) には外部知識を取り入れた言語モデルが大幅に進歩しているが、既存のテキストベースの検索はクリーンで構造化された入力に依存しており、PDF、スライド、ビデオなどの現実世界の文書に見られる視覚的および意味的にリッチなコンテンツと競合する。
ColPaliのような最近の研究は、画像ベース表現を用いた文書レイアウトの保存が検索品質を向上させることを示した。
この上に構築され、Qwen2.5-Omniのような最近のマルチモーダルモデルの能力に触発されて、テキストや画像を超えて検索を拡張し、オーディオやビデオのモダリティもサポートする。
Omni-Embed-Nemotronは、クロスモーダル(eg, text - video)とジョイントモーダル(eg, text - video+audio)の両方を単一のモデルで検索できる。
我々は,Omni-Embed-Nemotronのアーキテクチャ,トレーニング設定,評価結果を記述し,テキスト,画像,ビデオ検索においてその有効性を示す。
関連論文リスト
- MAGMaR Shared Task System Description: Video Retrieval with OmniEmbed [55.526939500742]
我々はTevatron 2.0ツールキットの強力なマルチモーダル埋め込みモデルであるOmniEmbedを使用して、テキスト、画像、オーディオ、ビデオの統一埋め込みを生成する。
2025年5月20日時点の公募では、MAGMaRのタスクリーダーボードの最高スコアを達成しました。
論文 参考訳(メタデータ) (2025-06-11T05:40:26Z) - Large Language Models Implicitly Learn to See and Hear Just By Reading [61.3564313676731]
テキストトークン上で自動回帰LDMモデルをトレーニングすることにより、テキストモデルは本質的に内部で画像や音声を理解する能力を開発する。
本稿では,CIFAR-10とFashion-MNISTの画像分類と画像パッチについて述べる。
論文 参考訳(メタデータ) (2025-05-20T22:20:16Z) - Tevatron 2.0: Unified Document Retrieval Toolkit across Scale, Language, and Modality [74.59049806800176]
このデモペーパーでは、Tevatronツールキットの重要な特徴、学界と産業の橋渡しについて取り上げている。
強い多言語・多モーダルな有効性を実現するための密集型検索器について紹介する。
私たちはOmniEmbedもリリースしています。私たちの知る限り、テキスト、画像ドキュメント、ビデオ、オーディオ検索を統一する最初の埋め込みモデルです。
論文 参考訳(メタデータ) (2025-05-05T08:52:49Z) - Movie2Story: A framework for understanding videos and telling stories in the form of novel text [0.0]
補助情報に富んだシナリオにおけるテキスト生成能力を評価するための新しいベンチマークを提案する。
本研究は,高精度な補助情報の提供を確実にするための,革新的な自動データセット生成手法を提案する。
本実験により, 提案した評価指標に基づいて, 現在のMLLM(Multi-modal Large Language Models)が準最適に動作していることが判明した。
論文 参考訳(メタデータ) (2024-12-19T15:44:04Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Emu: Generative Pretraining in Multimodality [43.759593451544546]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。
Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。
Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文 参考訳(メタデータ) (2023-07-11T12:45:39Z) - VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and
Dataset [17.927825332032477]
本稿では,VAST-27Mという大規模モダリティビデオキャプションデータセットを自動生成する手法を提案する。
まず、2700万のオープンドメインのビデオクリップを収集し、視覚とオーディオキャプタを別々に訓練して、視覚とオーディオキャプタを生成します。
既成のLarge Language Model (LLM) を用いて生成されたキャプションと,字幕と指導プロンプトを総称モダリティキャプションに統合する。
論文 参考訳(メタデータ) (2023-05-29T14:34:50Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。