論文の概要: EmergentBridge: Improving Zero-Shot Cross-Modal Transfer in Unified Multimodal Embedding Models
- arxiv url: http://arxiv.org/abs/2604.11043v2
- Date: Tue, 14 Apr 2026 03:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.423479
- Title: EmergentBridge: Improving Zero-Shot Cross-Modal Transfer in Unified Multimodal Embedding Models
- Title(参考訳): EmergentBridge:Unified Multimodal Embedding Modelにおけるゼロショットクロスモーダルトランスファーの改善
- Authors: Jincheng Xie, Xingchen Xiao, Runheng Liu, Zhongyi Huang, Yu Zheng, Heyan Huang,
- Abstract要約: 実際のデプロイメントでは、モダリティペアの小さなサブセットに対してのみ、監視が利用可能である。
埋め込みレベルのブリッジフレームワークである textbfEmergentBridge を提案する。
- 参考スコア(独自算出の注目度): 39.63333068031766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified multimodal embedding spaces underpin practical applications such as cross-modal retrieval and zero-shot recognition. In many real deployments, however, supervision is available only for a small subset of modality pairs (e.g., image--text), leaving \emph{unpaired} modality pairs (e.g., audio$\leftrightarrow$depth, infrared$\leftrightarrow$audio) weakly connected and thus performing poorly on zero-shot transfer. Addressing this sparse-pairing regime is therefore essential for scaling unified embedding systems to new tasks without curating exhaustive pairwise data. We propose \textbf{EmergentBridge}, an embedding-level bridging framework that improves performance on these unpaired pairs \emph{without requiring exhaustive pairwise supervision}. Our key observation is that naively aligning a new modality to a synthesized proxy embedding can introduce \emph{gradient interference}, degrading the anchor-alignment structure that existing retrieval/classification relies on. EmergentBridge addresses this by (i) learning a mapping that produces a \emph{noisy bridge anchor} (a proxy embedding of an already-aligned modality) from an anchor embedding, and (ii) enforcing proxy alignment only in the subspace orthogonal to the anchor-alignment direction, preserving anchor alignment while strengthening non-anchor connectivity. Across nine datasets spanning multiple modalities, EmergentBridge consistently outperforms prior binding baselines on zero-shot classification and retrieval, demonstrating strong emergent alignment.
- Abstract(参考訳): 統合マルチモーダル埋め込み空間は、クロスモーダル検索やゼロショット認識などの実用的な応用の基盤となっている。
しかし、実際の多くのデプロイにおいて、監督はモダリティペアの小さなサブセット(例: 画像-テキスト)でのみ利用可能であり、モダリティペア(例: audio$\leftrightarrow$depth, infrared$\leftrightarrow$audio)は弱結合であり、ゼロショット転送では不十分である。
したがって、このスパースペアリング体制に対処することは、完全なペアワイドデータを計算することなく、統合埋め込みシステムを新しいタスクにスケールするのに不可欠である。
本稿では, 組込みレベルのブリッジフレームワークである‘textbf{EmergentBridge} を提案する。
我々のキーとなる観察は、新しいモダリティを合成されたプロキシ埋め込みに鼻で合わせることで、既存の検索/分類が依存するアンカーアライメント構造を劣化させ、 \emph{gradient interference} を導入することができることである。
EmergentBridgeはこの問題に対処する
i) アンカー埋め込みから 'emph{noisy bridge anchor} (既に整列したモダリティのプロキシ埋め込み) を生成するマッピングを学習し、
二 アンカーアライメント方向に対して直交する部分空間にのみプロキシアライメントを強制し、アンカーアライメントを維持しつつ非アンカー接続性を強化する。
複数のモーダルにまたがる9つのデータセットにおいて、EmergentBridgeはゼロショット分類と検索の事前バインディングベースラインを一貫して上回り、強力な創発的アライメントを示す。
関連論文リスト
- PEARL: Geometry Aligns Semantics for Training-Free Open-Vocabulary Semantic Segmentation [30.577077015761585]
トレーニングフリーなオープン語彙セマンティックセマンティックセグメンテーション(OVSS)は、リトレーニングなしで新しいラベルセットに迅速に適応することを約束する。
我々は、アライメント-then-proagateの原理に従うコンパクトな2ステップの推論であるPEARLを提案する。
提案手法は,完全トレーニングフリーでプラグアンドプレイで,固定定数のみを使用し,最小限のレイテンシを付加し,頭部プロジェクションを小さくする。
論文 参考訳(メタデータ) (2026-03-23T03:40:47Z) - SOTAlign: Semi-Supervised Alignment of Unimodal Vision and Language Models via Optimal Transport [43.640561199880274]
プラトン表現仮説(英: Platonic Representation hypothesis)は、ニューラルネットワークが世界の共有統計モデルに向かって収束するという仮説である。
最近の研究は、凍結した事前学習された視覚と言語モデルを軽量なアライメント層に整列させることによって、この収束を利用する。
我々は、極めて少ない監督で有意義なアライメントが達成できるかどうか尋ねる。
事前訓練された単調エンコーダを少数の画像テキストペアと大量の未ペアデータを用いてアライメントする半教師付き設定を導入する。
論文 参考訳(メタデータ) (2026-02-26T18:55:06Z) - Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - Unleashing Degradation-Carrying Features in Symmetric U-Net: Simpler and Stronger Baselines for All-in-One Image Restoration [52.82397287366076]
オールインワン画像復元は、統合された枠組み内で様々な劣化(ノイズ、ぼかし、悪天候など)を扱うことを目的としている。
本研究では, 優れた特徴抽出法により, 劣化伝達情報を本質的にエンコードする, 重要な知見を明らかにする。
我々の対称設計は固有の劣化信号を頑健に保存し、スキップ接続に単純な加法融合を施す。
論文 参考訳(メタデータ) (2025-12-11T12:20:31Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Scalable Robust Bayesian Co-Clustering with Compositional ELBOs [2.6756996523251964]
共クラスタリングは、両方の次元において有意義なグループを明らかにするために、インスタンスと機能の双対性を利用する。
本稿では,列クラスタと列クラスタを直接学習する,完全変動型クラスタリングフレームワークについて紹介する。
提案手法は, 従来のコクラスタリング手法の利点を保ちながら, 精度とロバスト性にも優れる。
論文 参考訳(メタデータ) (2025-04-05T06:48:05Z) - Exploring Homogeneous and Heterogeneous Consistent Label Associations for Unsupervised Visible-Infrared Person ReID [57.500045584556794]
均質かつ不均一なインスタンスレベルの構造を同時に説明できるModality-Unified Label Transfer (MULT) モジュールを導入する。
提案したMULTは、生成した擬似ラベルがモダリティ間の整合性を維持しつつ、モダリティ内の構造的整合性を維持することを保証する。
実験の結果,提案手法は既存のUSL-VI-ReID法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-01T15:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。