論文の概要: e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings
- arxiv url: http://arxiv.org/abs/2601.03666v1
- Date: Wed, 07 Jan 2026 07:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.150367
- Title: e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings
- Title(参考訳): e5-omni: Omni-modal 埋め込みのための明示的なクロスモーダルアライメント
- Authors: Haonan Chen, Sicheng Gao, Radu Timofte, Tetsuya Sakai, Zhicheng Dou,
- Abstract要約: 市販の視覚言語モデルをロバストなオムニモーダル埋め込みモデルに適応させる軽量な明示的アライメントレシピであるe5-omniを提案する。
e5-omniは、類似度尺度を整合させるためにモード対応温度校正と、混乱する負の点に焦点を合わせた制御可能な負のカリキュラムと、クロスモーダル幾何に適合するバッチホワイトニングを組み合わせる。
MMEB-V2とAudioCapsの実験では、強いバイモーダルおよびオムニモーダルベースラインよりも一貫した利得を示した。
- 参考スコア(独自算出の注目度): 91.3041144166326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern information systems often involve different types of items, e.g., a text query, an image, a video clip, or an audio segment. This motivates omni-modal embedding models that map heterogeneous modalities into a shared space for direct comparison. However, most recent omni-modal embeddings still rely heavily on implicit alignment inherited from pretrained vision-language model (VLM) backbones. In practice, this causes three common issues: (i) similarity logits have modality-dependent sharpness, so scores are not on a consistent scale; (ii) in-batch negatives become less effective over time because mixed-modality batches create an imbalanced hardness distribution; as a result, many negatives quickly become trivial and contribute little gradient; and (iii) embeddings across modalities show mismatched first- and second-order statistics, which makes rankings less stable. To tackle these problems, we propose e5-omni, a lightweight explicit alignment recipe that adapts off-the-shelf VLMs into robust omni-modal embedding models. e5-omni combines three simple components: (1) modality-aware temperature calibration to align similarity scales, (2) a controllable negative curriculum with debiasing to focus on confusing negatives while reducing the impact of false negatives, and (3) batch whitening with covariance regularization to better match cross-modal geometry in the shared embedding space. Experiments on MMEB-V2 and AudioCaps show consistent gains over strong bi-modal and omni-modal baselines, and the same recipe also transfers well to other VLM backbones. We release our model checkpoint at https://huggingface.co/Haon-Chen/e5-omni-7B.
- Abstract(参考訳): 現代の情報システムでは、例えば、テキストクエリ、画像、ビデオクリップ、オーディオセグメントなど、さまざまな種類の項目が関係していることが多い。
このことは、不均一なモダリティを直接比較するために共有空間にマッピングするオムニモダル埋め込みモデルを動機付けている。
しかし、最近のオムニモーダル埋め込みは、まだ事前訓練された視覚言語モデル(VLM)のバックボーンから受け継がれた暗黙のアライメントに大きく依存している。
実際には、これは3つの共通の問題を引き起こします。
(i)類似性ロジットは、モダリティに依存したシャープネスを有するため、スコアは一貫したスケールにない。
(ii)混合モダリティバッチは不均衡な硬さ分布を生じさせるため、時間とともにバッチ内の負は効果が低下し、結果として、多くの負はすぐに自明になり、勾配にはほとんど寄与しない。
(iii)モダリティにまたがる埋め込みは、一階と二階の統計のミスマッチを示すため、ランキングの安定性が低下する。
これらの問題に対処するため,本研究では,市販のVLMをロバストなオムニモーダル埋め込みモデルに適応させる軽量な明示的アライメントレシピe5-omniを提案する。
e5-omni は,(1) 類似度尺度の整合性を考慮したモダリティ対応温度校正,(2) 偽陰性の影響を低減しつつ,難解な負に焦点をあてる制御可能な負のカリキュラム,(3) 共分散正則化によるバッチ白化による共有埋め込み空間のクロスモーダル幾何学の整合性向上,の 3 つの簡単な構成要素を組み合わせた。
MMEB-V2およびAudioCapsの実験では、強いバイモーダルおよびオムニモーダルベースラインよりも一貫した利得を示し、同じレシピは他のVLMバックボーンにもよく伝達される。
モデルチェックポイントはhttps://huggingface.co/Haon-Chen/e5-omni-7Bで公開しています。
関連論文リスト
- UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning [101.62386137855704]
本稿では,Universal Multimodal Embedding (UniME-V2)モデルを提案する。
提案手法はまず,グローバル検索による潜在的な負のセットを構築する。
次に、MLLMを用いてクエリ候補対のセマンティックアライメントを評価するMLLM-as-a-Judge機構を提案する。
これらのスコアは、ハード・ネガティブ・マイニングの基礎となり、偽陰性の影響を緩和し、多様な高品質なハード・ネガティブの識別を可能にする。
論文 参考訳(メタデータ) (2025-10-15T13:07:00Z) - Dynamic Weighted Combiner for Mixed-Modal Image Retrieval [8.683144453481328]
フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。
以前のアプローチは常に2つの重要な要因のため、限られたパフォーマンスを達成する。
以上の課題に対処するための動的重み付け結合器(DWC)を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:36:45Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Training Vision-Language Models with Less Bimodal Supervision [37.945348204453154]
このような並列データへの依存度を低減できる範囲について検討する。
バイモーダル監視が3つの視覚言語課題に与える影響を解析する。
VQAv2やGQAのような単純なタスクでは、バイモーダルの監督を完全に排除でき、パフォーマンスの損失はわずかである。
論文 参考訳(メタデータ) (2022-11-01T04:07:11Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive
Representation Learning [35.25854322376364]
CLIPのようなマルチモーダルモデルにおいて、データモダリティは、その共有表現に腕の長さに埋め込まれていることが示される。
対照的に、学習は、損失関数の温度パラメータの影響を受け、特定の距離で異なるモードを分離する。
実験により, モダリティギャップ距離の変化は, 下流のゼロショット分類性能と公平性を改善する上で大きな影響を与えることが示された。
論文 参考訳(メタデータ) (2022-03-03T22:53:54Z) - ANIMC: A Soft Framework for Auto-weighted Noisy and Incomplete
Multi-view Clustering [59.77141155608009]
本稿では, ソフトな自己重み付き戦略と2倍のソフトな正規回帰モデルを用いて, 自動重み付きノイズと不完全なマルチビュークラスタリングフレームワーク(ANIMC)を提案する。
ANIMCには3つの独特な利点がある: 1) 異なるシナリオでフレームワークを調整し、その一般化能力を向上させるソフトアルゴリズム、2) 各ビューに対する適切な重み付けを自動的に学習し、ノイズの影響を低減し、3) 異なるビューで同じインスタンスを整列させ、欠落したインスタンスの影響を減少させる。
論文 参考訳(メタデータ) (2020-11-20T10:37:27Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。