論文の概要: OmniRetriever: Any-to-Any Audio-Video-Text Retrieval via Fusion-as-Teacher Distillation
- arxiv url: http://arxiv.org/abs/2605.26641v1
- Date: Tue, 26 May 2026 07:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.725811
- Title: OmniRetriever: Any-to-Any Audio-Video-Text Retrieval via Fusion-as-Teacher Distillation
- Title(参考訳): OmniRetriever:Fusion-as-Teacher蒸留によるオーディオ-ビデオ-テキスト検索
- Authors: Yunze Liu, Chi-Hao Wu, Enmin Zhou, Junxiao Shen,
- Abstract要約: 本研究では,単一モード埋め込みの教師信号として,融合埋め込みの段階的に停止するコピーを扱う。
6つのゼロショット検索ベンチマークで、OmniRetriever-7BはクローズドソースのGemini Embedding 2を13.3-18.0 R@1で上回っている。
12方向のAVT検索ベンチマークであるOmniRetriever-Benchを3782トリプルでリリースする。
- 参考スコア(独自算出の注目度): 11.007647922362162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal embedding spaces have become the standard interface for cross-modal retrieval and multimodal RAG, and recent audio-video-text (AVT) encoders extend this setting to three modalities. Such encoders can produce a joint (T,V,A) embedding whenever all three modalities are available, but standard pairwise InfoNCE objectives leave this signal unused during training. We close this gap with fusion-as-teacher distillation, which treats a stop-gradient copy of the fused embedding as a teacher signal for the single-modal embeddings, paired with a Tuple-InfoNCE term that supervises the fused embedding directly. We instantiate this objective as OmniRetriever-7B. Across six zero-shot retrieval benchmarks, OmniRetriever-7B surpasses the closed-source Gemini Embedding 2 by 13.3-18.0 R@1 on Clotho and SoundDescs, and reaches the contemporary zero-shot specialist band of open video-text encoders on MSR-VTT and MSVD. To stress-test joint representations, we further release OmniRetriever-Bench, a 12-direction AVT retrieval benchmark totaling 3782 triples; on it OmniRetriever-7B attains AVG-all 34.84, improving over Gemini Embedding 2 by 1.72 and over the best prior open-source AVT method by 8.03.
- Abstract(参考訳): 統合マルチモーダル埋め込み空間は、クロスモーダル検索とマルチモーダルRAGの標準インターフェースとなり、最近のオーディオビデオテキスト(AVT)エンコーダはこの設定を3つのモーダルに拡張した。
このようなエンコーダは、3つのモダリティがすべて利用可能であるたびにジョイント(T,V,A)を埋め込むことができるが、標準対のInfoNCEの目的は訓練中にこの信号は使われないままである。
このギャップをフューズ・アズ・ティーチャー蒸留(Fusion-as-Teacher distillation)で埋め込むと、融合した埋め込みを直接監督するTuple-InfoNCE用語と組み合わせて、単一のモーダル埋め込みの教師信号として融合した埋め込みのストップ・グラディエントコピーを処理します。
我々はこの目的をOmniRetriever-7Bとしてインスタンス化する。
6つのゼロショット検索ベンチマークで、OmniRetriever-7B はクローズドソースの Gemini Embedding 2 を13.3-18.0 R@1 の Clotho と SoundDescs で上回り、MSR-VTT と MSVD のオープンビデオテキストエンコーダのゼロショットスペシャリストバンドに到達した。
OmniRetriever-7B は AVG-all 34.84 に達し,Gemini Embedding 2 よりも 1.72 向上し,これまでで最高のオープンソース AVT 法より 8.03 向上した。
関連論文リスト
- UniCVR: From Alignment to Reranking for Unified Zero-Shot Composed Visual Retrieval [87.12447641908143]
組込みゼロショット合成ビジュアル検索フレームワークUniCVRを提案する。
UniCVRは、タスク固有の人間アノテーションのない3つのタスクすべてに共同で対処する。
ステージIでは,約3.5Mサンプルのキュレートされたデータセットに対して,コントラスト学習によりMLLMを合成クエリ埋め込み器として訓練する。
ステージIIでは,少数の上位候補に対して適応的予算付サブセットスコアを付与するMLLM誘導二重レベル再ランク機構を導入する。
論文 参考訳(メタデータ) (2026-04-22T08:16:50Z) - WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference [56.297697169678095]
WISV(Wireless-Informed Semantic Verification)は、分散投機的復号化フレームワークである。
WISVは最大60.8%の許容長の増加、37.3%の対話ラウンドの削減、31.4%のエンドツーエンドレイテンシの改善を実現している。
NVIDIA Jetson AGX OrinとA40搭載サーバからなるハードウェアテストベッド上でWISVを検証する。
論文 参考訳(メタデータ) (2026-04-20T01:29:56Z) - Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency [61.68376148916503]
FDB-v3 (Full-Duplex-Bench-v3) は、自然言語条件下での音声モデルの評価と多段階ツールの使用のためのベンチマークである。
以前の作業とは異なり、データセットは5つのディスフルカテゴリにアノテートされた実際の人間のオーディオで構成されており、4つのタスクドメインにチェーンされたAPI呼び出しを必要とするシナリオとペアリングされています。
GPT-Realtime、Gemini Live 2.5、Gemini Live 3.1、Grok、Ultravox v0.7、従来のカスケードパイプライン(Whisper$rightarrow$rightarrow$TTS)の6つのモデル構成を精度、レイテンシ、ターンで評価した。
論文 参考訳(メタデータ) (2026-04-06T16:46:52Z) - STEP3-VL-10B Technical Report [115.89015065130127]
STEP3-VL-10Bは、コンパクト効率とフロンティアレベルのマルチモーダルインテリジェンスとのトレードオフを再定義する軽量基盤モデルである。
そこで我々はPallel Coordinated Reasoning(PaCoRe)を実装して,テスト時間計算をスケールし,リソースをスケーラブルな知覚推論に割り当てる。
MMBenchでは92.2%、MMMUでは80.11%、AIME2025では94.43%、MathVisionでは75.95%である。
論文 参考訳(メタデータ) (2026-01-14T17:58:24Z) - GateFusion: Hierarchical Gated Cross-Modal Fusion for Active Speaker Detection [19.80016468034245]
GateFusionは、強力な事前訓練された単調エンコーダと階層型Gated Fusion Decoder(HiGate)を組み合わせた新しいアーキテクチャである。
HiGateは、Transformerのバックボーンの複数の層で、1つのモードからもう1つのモードにコンテキスト特徴を適応的に注入することで、プログレッシブで多次元の融合を可能にする。
論文 参考訳(メタデータ) (2025-12-17T18:56:52Z) - OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM [146.029449832893]
我々はOmniVinciを紹介します。OmniVinciは強力でオープンソースのOmni-modal LLMを構築するためのイニシアチブです。
モデルアーキテクチャでは、(i)OmniAlignNetで視覚とオーディオの埋め込みのアライメントを強化する方法、(ii)視覚と音声信号の時間的アライメントをキャプチャするための時間的エンベディンググループ、(iii)オムニモーダル埋め込みにおける絶対時間的情報をエンコードするための制約付きロータリー時間エンベディングという3つの重要なイノベーションを提示する。
論文 参考訳(メタデータ) (2025-10-17T17:59:59Z) - RAVEN: Query-Guided Representation Alignment for Question Answering over Audio, Video, Embedded Sensors, and Natural Language [1.5599296461516985]
RAVENは、クエリ条件のクロスモーダルゲーティングモジュールであるQuARTをコアとする統一QAアーキテクチャである。
RAVENは、単調な事前トレーニング、クエリ整合融合、不一致指向の微調整を含む3段階のパイプラインを通じてトレーニングされる。
実験の結果、RAVENは最先端のマルチモーダル言語モデルと比較して14.5%と8.0%の精度で向上した。
論文 参考訳(メタデータ) (2025-05-21T14:33:36Z) - Back to Supervision: Boosting Word Boundary Detection through Frame Classification [5.901031474087739]
単語境界検出を教師付きで行うためのモデルに依存しないフレームワークを提案する。
私たちはBuckeyeデータセットでトレーニングとテストを行い、TIMITデータセットでのみテストしました。
我々は,Buckeyeデータセットで0.8427,TIMITデータセットで0.7436,R値で0.8489,0.7807を得た。
論文 参考訳(メタデータ) (2024-11-15T18:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。