論文の概要: Learning Relative Representations for Fine-Grained Multimodal Alignment with Limited Data
- arxiv url: http://arxiv.org/abs/2605.16834v1
- Date: Sat, 16 May 2026 06:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.192117
- Title: Learning Relative Representations for Fine-Grained Multimodal Alignment with Limited Data
- Title(参考訳): 有限データを用いた細粒度マルチモーダルアライメントの相対表現学習
- Authors: Shiwon Kim, Yu Rang Park,
- Abstract要約: 本稿では,相対表現を用いてトークンレベルのクロスモーダル構造を学習するポストホックアライメント手法を提案する。
提案手法は, ゼロショット分類, クロスモーダル検索, ゼロショットセグメンテーションにおいて, 既存の手法より一貫して優れている。
- 参考スコア(独自算出の注目度): 0.5156484100374059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal pre-training demonstrates strong generalization performance, but this paradigm is often impractical in domains where paired data are scarce. A promising alternative is post-hoc multimodal alignment, which aligns separately pre-trained unimodal encoders using a limited number of paired examples. However, existing methods focus primarily on aligning global representations, missing patch-token relations. This may hinder transfer to tasks that require fine-grained cross-modal matching beyond coarse sample-level semantics. To address this issue, we propose a post-hoc alignment method that learns token-level cross-modal structure using relative representations. Specifically, we represent images and texts through their token-level similarities to a set of learnable anchors in each modality space, which are trained to induce consistent cross-modal similarity patterns for matched pairs. Despite learning only the anchors without heavy projection layers, our approach consistently outperforms existing methods in zero-shot classification, cross-modal retrieval, and zero-shot segmentation by a substantial margin. This highlights the importance of modeling fine-grained cross-modal structure for effective post-hoc multimodal alignment with limited paired data.
- Abstract(参考訳): マルチモーダル事前学習は、強力な一般化性能を示すが、ペアデータが少ない領域では、このパラダイムはしばしば実用的ではない。
有望な代替手段はポストホックマルチモーダルアライメント(英語版)であり、ペアの限られた数を用いて個別に事前訓練されたアンモダルエンコーダをアライメントする。
しかし、既存の手法は、主にグローバル表現の整合、パッチ・トーケン関係の欠如に焦点を当てている。
これは、粗いサンプルレベルのセマンティクスを超えた細粒度のクロスモーダルマッチングを必要とするタスクへの転送を妨げる可能性がある。
この問題に対処するために,相対表現を用いてトークンレベルのクロスモーダル構造を学習するポストホックアライメント手法を提案する。
具体的には、各モダリティ空間における学習可能なアンカーの集合とトークンレベルの類似性を通して画像とテキストを表現し、マッチングされたペアに対して一貫したクロスモーダルな類似パターンを誘導するように訓練する。
重射影層を持たないアンカーのみを学習するにもかかわらず、我々はゼロショット分類、クロスモーダル検索、ゼロショットセグメンテーションにおいて、既存の手法を著しく上回っている。
このことは、制限されたペアデータによる効果的なポストホックマルチモーダルアライメントのための微粒なクロスモーダル構造をモデル化することの重要性を強調している。
関連論文リスト
- PivotMerge: Bridging Heterogeneous Multimodal Pre-training via Post-Alignment Model Merging [80.17966517536102]
マルチモーダル大規模言語モデルの事前学習の核心は、効果的なクロスモーダルアライメントの確立にあると論じる。
この知見に触発されて,マルチモーダル事前学習から学んだクロスモーダルアライメント機能を統合することを目的とした,アライメント後のマージタスクを導入する。
クロスモーダルプロジェクタのためのアライメント後マージフレームワークであるPivotMergeを提案する。
論文 参考訳(メタデータ) (2026-04-18T09:38:03Z) - Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models [63.032359320629105]
In this present: Unpaired Multimodal, a modality-agnostic training paradigm, a single model then alternately processs from different modalities while sharing parameters across。
補助モダリティからの未ペアリングデータを使用することで、画像や音声などの様々な単一目標に対して、ダウンストリーム性能が一貫して向上することを示す。
論文 参考訳(メタデータ) (2025-10-09T17:32:23Z) - Cross-modal Full-mode Fine-grained Alignment for Text-to-Image Person Retrieval [54.90229711181207]
TIPR (Text-to-Image Person Retrieval) は、与えられたテキストクエリに基づいて、最も関連性の高い人物画像を取得することを目的としている。
TIPRの鍵となる課題は、テキストと視覚のモダリティの効果的なアライメントを達成することである。
FMFA, クロスモーダルフルモーデファインファインファインファインアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-17T07:12:05Z) - Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations [22.45586503859047]
多様なデータソースを効果的に統合するためには,マルチモーダル学習における統一表現空間が不可欠である。
ImageBindのような最近のバインディング手法は、通常、複数のモーダルデータを整列するために単一の固定アンカーモダリティに依存している。
我々は,我々のフレームワークであるCentroBindで実証された適応型アンカーバインディング手法の必要性を提案する。
論文 参考訳(メタデータ) (2024-10-02T23:19:23Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。