論文の概要: Reliable Cross-modal Alignment via Prototype Iterative Construction
- arxiv url: http://arxiv.org/abs/2510.11175v1
- Date: Mon, 13 Oct 2025 09:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.286369
- Title: Reliable Cross-modal Alignment via Prototype Iterative Construction
- Title(参考訳): プロトタイプ反復構成による信頼性のあるクロスモーダルアライメント
- Authors: Xiang Ma, Litian Xu, Lexin Fang, Caiming Zhang, Lizhen Cui,
- Abstract要約: クロスモーダルアライメントは重要なマルチモーダルタスクであり、異なるモーダル間のセマンティックギャップを橋渡しすることを目的としている。
従来の方法では、埋め込みは意味情報のみを含むと暗黙的に仮定し、アライメント中の非意味情報の影響を無視している。
組込み相互作用におけるスタイル干渉を抑制する新しいフレームワークであるPICOを提案する。
- 参考スコア(独自算出の注目度): 40.09297916971621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal alignment is an important multi-modal task, aiming to bridge the semantic gap between different modalities. The most reliable fundamention for achieving this objective lies in the semantic consistency between matched pairs. Conventional methods implicitly assume embeddings contain solely semantic information, ignoring the impact of non-semantic information during alignment, which inevitably leads to information bias or even loss. These non-semantic information primarily manifest as stylistic variations in the data, which we formally define as style information. An intuitive approach is to separate style from semantics, aligning only the semantic information. However, most existing methods distinguish them based on feature columns, which cannot represent the complex coupling relationship between semantic and style information. In this paper, we propose PICO, a novel framework for suppressing style interference during embedding interaction. Specifically, we quantify the probability of each feature column representing semantic information, and regard it as the weight during the embedding interaction. To ensure the reliability of the semantic probability, we propose a prototype iterative construction method. The key operation of this method is a performance feedback-based weighting function, and we have theoretically proven that the function can assign higher weight to prototypes that bring higher performance improvements. Extensive experiments on various benchmarks and model backbones demonstrate the superiority of PICO, outperforming state-of-the-art methods by 5.2\%-14.1\%.
- Abstract(参考訳): クロスモーダルアライメントは重要なマルチモーダルタスクであり、異なるモーダル間のセマンティックギャップを橋渡しすることを目的としている。
この目的を達成するための最も信頼できる基金は、マッチングされたペア間のセマンティック一貫性にある。
従来の方法では、埋め込みは意味情報のみを含むと暗黙的に仮定し、アライメント中に非意味情報の影響を無視し、必然的に情報のバイアスや損失につながると仮定している。
これらの非意味的な情報は、主にデータのスタイリスティックなバリエーションとして現れ、我々は形式情報として公式に定義する。
直感的なアプローチは、セマンティクスからスタイルを分離し、セマンティクス情報のみを整列させることである。
しかし、既存のほとんどのメソッドは、意味とスタイルの情報の間の複雑な結合関係を表現できない特徴列に基づいてそれらを区別する。
本稿では,組込み相互作用におけるスタイル干渉を抑制する新しいフレームワークであるPICOを提案する。
具体的には、意味情報を表す各特徴列の確率を定量化し、埋め込み相互作用における重みとみなす。
セマンティックな確率の信頼性を確保するために,プロトタイプの反復的構築法を提案する。
本手法の重要な操作は,性能フィードバックに基づく重み付け関数であり,性能改善をもたらすプロトタイプにより高い重み付けを付与できることを理論的に証明した。
様々なベンチマークやモデルバックボーンに関する大規模な実験は、PICOの優位性を示し、最先端の手法を5.2\%-14.1\%向上させた。
関連論文リスト
- Semantic and Structural Analysis of Implicit Biases in Large Language Models: An Interpretable Approach [1.5749416770494704]
モデル出力に隠された社会的バイアスを特定するための解釈可能なバイアス検出手法を提案する。
この方法は、ネストされた意味表現と文脈的コントラスト機構を組み合わせる。
この評価は、バイアス検出精度、セマンティック一貫性、文脈感度など、いくつかの重要な指標に焦点を当てている。
論文 参考訳(メタデータ) (2025-08-08T09:21:10Z) - Any-Way Meta Learning [27.16222034423108]
固定基数制約からモデルを解放する革新的なモデルトレーニングアプローチである「任意の方向」学習パラダイムを導入する。
驚くべきことに、このモデルは単に一致するだけでなく、性能、収束速度、安定性の点で従来の固定経路モデルを上回ることがしばしばある。
論文 参考訳(メタデータ) (2024-01-10T12:00:53Z) - Beyond Prototypes: Semantic Anchor Regularization for Better
Representation Learning [82.29761875805369]
表現学習の最終的な目標の1つは、クラス内のコンパクトさとクラス間の十分な分離性を達成することである。
本稿では,機能セントロイドとして機能する事前定義されたクラスアンカーを用いて,特徴学習を一方向ガイドする新しい視点を提案する。
提案したSemantic Anchor Regularization (SAR) は,既存モデルのプラグアンドプレイ方式で使用することができる。
論文 参考訳(メタデータ) (2023-12-19T05:52:38Z) - Fixing confirmation bias in feature attribution methods via semantic
match [4.733072355085082]
モデル上の仮説が特徴属性によって確認されるかどうかを検証するためには,構造的アプローチが必要である,と我々は主張する。
これは、人間の概念と(サブシンボリックな)説明の「セマンティックマッチ」と呼ばれるものです。
論文 参考訳(メタデータ) (2023-07-03T09:50:08Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。