Fugu-MT 論文翻訳(概要): One Single Hub Text Breaks CLIP: Identifying Vulnerabilities in Cross-Modal Encoders via Hubness

論文の概要: One Single Hub Text Breaks CLIP: Identifying Vulnerabilities in Cross-Modal Encoders via Hubness

arxiv url: http://arxiv.org/abs/2604.27674v1
Date: Thu, 30 Apr 2026 10:08:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-01 16:31:54.037937
Title: One Single Hub Text Breaks CLIP: Identifying Vulnerabilities in Cross-Modal Encoders via Hubness
Title（参考訳）: 1つの単一ハブテキストがCLIPを破る: Hubnessによるクロスモーダルエンコーダの脆弱性の特定
Authors: Hiroyuki Deguchi, Katsuki Chousa, Yusuke Sakai,
Abstract要約: 異なるモダリティを共有空間に投影するクロスモーダルエンコーダは、様々なクロスモーダルアプリケーションに役立つ。本稿では,ハブ埋め込みとその対応するハブテキストを同定する手法を提案する。提案手法は,人書きの参照キャプションと同等あるいは高い類似性スコアを不当に達成する単一ハブテキストを同定することができる。
参考スコア（独自算出の注目度）: 6.572810068286891
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The hubness problem, in which hub embeddings are close to many unrelated examples, occurs often in high-dimensional embedding spaces and may pose a practical threat for purposes such as information retrieval and automatic evaluation metrics. In particular, since cross-modal similarity between text and images cannot be calculated by direct comparisons, such as string matching, cross-modal encoders that project different modalities into a shared space are helpful for various cross-modal applications, and thus, the existence of hubs may pose practical threats. To reveal the vulnerabilities of cross-modal encoders, we propose a method for identifying the hub embedding and its corresponding hub text. Experiments on image captioning evaluation in MSCOCO and nocaps along with image-to-text retrieval tasks in MSCOCO and Flickr30k showed that our method can identify a single hub text that unreasonably achieves comparable or higher similarity scores than human-written reference captions in many images, thereby revealing the vulnerabilities in cross-modal encoders.
Abstract（参考訳）: ハブ埋め込みが多くの無関係な例に近づいたハブ性問題は、高次元埋め込み空間でしばしば発生し、情報検索や自動評価指標などの目的のために実用的な脅威となる。特に、文字列マッチングや共有空間に異なるモダリティを投影するクロスモーダルエンコーダといった直接比較では、テキストと画像間の相互類似性は計算できないため、ハブの存在は現実的な脅威となる可能性がある。クロスモーダルエンコーダの脆弱性を明らかにするために,ハブ埋め込みとその対応するハブテキストを識別する手法を提案する。 MSCOCO と Flickr30k における画像キャプション評価と画像-テキスト検索タスクの併用による評価実験により,多くの画像において人間が記述した参照キャプションと同等あるいは高い類似性スコアを不合理に達成できる単一ハブテキストを同定し,モーダルエンコーダの脆弱性を明らかにすることができた。

関連論文リスト

JSSFF: A Joint Structural-Semantic Fusion Framework for Remote Sensing Image Captioning [1.8600174790635]
本研究では,原画像とそのエッジ認識バージョンをエンコーダに組み込んだエッジ認識融合手法を提案する。比較ベースビームサーチ(CBBS)を用いてキャプションを生成し,定量的指標と定性的キャプション関連性のバランスの取れたトレードオフを実現する。
論文参考訳（メタデータ） (2026-04-27T04:34:57Z)
A Cross-Modal Rumor Detection Scheme via Contrastive Learning by Exploring Text and Image internal Correlations [15.703292627605304]
コントラスト学習に基づくクロスモーダルなうわさ検出手法を提案する。スケールアウェア・フュージョンネットワークは,高精細なマルチスケール画像機能とグローバルテキスト機能を統合するように設計されている。実験結果から,噂検出における既存の最先端手法よりも大幅な性能向上が得られた。
論文参考訳（メタデータ） (2025-08-15T01:13:50Z)
Multimodal Representation Alignment for Cross-modal Information Retrieval [12.42313654539524]
異なる機械学習モデルは、異なる方法で同じ基礎概念を表現することができる。この可変性は、入力として与えられた1つのモダリティで対応する表現を識別することを目的として、Wildのマルチモーダル検索において特に有用である。そこで本研究では,視覚言語モデルと統合単調モデルの両方から得られる視覚とテキストの埋め込みの幾何学的関係について検討する。次に、ニューラルネットワークを介して実装された4つの標準的な類似度メトリクスと2つの学習した指標を使用して、これらの表現を調整します。
論文参考訳（メタデータ） (2025-06-10T13:16:26Z)
FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens [56.752362642658504]
マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:27:12Z)
Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning [70.98890307376548]
そこで本研究では,学習中に不信なコンテンツを適応的に緩和する,新しいPatch-wise Cross-modal Feature Mix-up(PCM)機構を提案する。私たちのPCM-Netは、ドメイン内およびクロスドメインのゼロショット画像キャプションの両方で第1位です。
論文参考訳（メタデータ） (2024-12-31T13:39:08Z)
Cross-Modality Perturbation Synergy Attack for Person Re-identification [66.48494594909123]
クロスモダリティの人物再識別(ReID)システムはRGB画像に基づいている。相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文参考訳（メタデータ） (2024-01-18T15:56:23Z)
Detector Guidance for Multi-Object Text-to-Image Generation [61.70018793720616]
Detector Guidance(DG)は、潜在オブジェクト検出モデルを統合して、生成プロセス中に異なるオブジェクトを分離する。人間の評価は、DGが対立する概念の融合を防ぐのに8-22%の利点をもたらすことを示した。
論文参考訳（メタデータ） (2023-06-04T02:33:12Z)
Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文参考訳（メタデータ） (2023-05-17T14:30:11Z)
Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image Retrieval [55.21569389894215]
本稿では,視覚変換器(XModalViT)のクロスアテンションフレームワークを提案する。我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
論文参考訳（メタデータ） (2022-10-19T11:50:14Z)
Probabilistic Embeddings for Cross-Modal Retrieval [38.04859099157609]
クロスモーダル検索法は、複数のモダリティからのサンプルの共通表現空間を構築する。本稿では、決定論的関数はそのような一対多対応を捉えるのに十分ではないと主張する。代わりに、確率的クロスモーダル埋め込み (PCME) を用いて、異なるモードからのサンプルを共通の埋め込み空間内の確率分布として表現する。
論文参考訳（メタデータ） (2021-01-13T13:58:00Z)
Stroke Constrained Attention Network for Online Handwritten Mathematical Expression Recognition [39.04507692185916]
本稿では,エンコーダ・デコーダを用いたオンライン手書き数式認識(HMER)の基本単位として脳卒中を取り扱う新しい脳卒中拘束型注意ネットワーク(SCAN)を提案する。シングルモーダルHMERでは、まずCNN-GRUエンコーダを使用してオンラインモードの入力トレースからポイントレベルの特徴を抽出し、ストローク制約情報を使用してオンラインおよびオフラインのストロークレベルの特徴に変換する。マルチモーダルHMERでは、デコーダ内のマルチモーダル情報を融合する以外に、オンラインとオフラインのモダリティ間のストロークベースのアライメントを利用して、エンコーダ内のマルチモーダル情報を融合することもできる。
論文参考訳（メタデータ） (2020-02-20T11:01:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。