論文の概要: AKRMap: Adaptive Kernel Regression for Trustworthy Visualization of Cross-Modal Embeddings
- arxiv url: http://arxiv.org/abs/2505.14664v1
- Date: Tue, 20 May 2025 17:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.658337
- Title: AKRMap: Adaptive Kernel Regression for Trustworthy Visualization of Cross-Modal Embeddings
- Title(参考訳): AKRMap: クロスモーダルな埋め込みの信頼できる可視化のための適応的なカーネル回帰
- Authors: Yilin Ye, Junchao Huang, Xingchen Zeng, Jiazhi Xia, Wei Zeng,
- Abstract要約: クロスモーダル埋め込みはマルチモーダルモデルの基盤となる。
PCAやt-SNEのような伝統的な次元還元(DR)技術は、複数のモードでメトリクスを組み込むことができない。
AKRMap(AKRMap)は、モーダルな埋め込み距離を精度良く可視化する新しいDR技術である。
- 参考スコア(独自算出の注目度): 4.53532815565143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal embeddings form the foundation for multi-modal models. However, visualization methods for interpreting cross-modal embeddings have been primarily confined to traditional dimensionality reduction (DR) techniques like PCA and t-SNE. These DR methods primarily focus on feature distributions within a single modality, whilst failing to incorporate metrics (e.g., CLIPScore) across multiple modalities.This paper introduces AKRMap, a new DR technique designed to visualize cross-modal embeddings metric with enhanced accuracy by learning kernel regression of the metric landscape in the projection space. Specifically, AKRMap constructs a supervised projection network guided by a post-projection kernel regression loss, and employs adaptive generalized kernels that can be jointly optimized with the projection. This approach enables AKRMap to efficiently generate visualizations that capture complex metric distributions, while also supporting interactive features such as zoom and overlay for deeper exploration. Quantitative experiments demonstrate that AKRMap outperforms existing DR methods in generating more accurate and trustworthy visualizations. We further showcase the effectiveness of AKRMap in visualizing and comparing cross-modal embeddings for text-to-image models. Code and demo are available at https://github.com/yilinye/AKRMap.
- Abstract(参考訳): クロスモーダル埋め込みはマルチモーダルモデルの基盤となる。
しかし, クロスモーダル埋め込みの可視化手法は, PCA や t-SNE といった従来の次元還元技術に限られている。
これらのDR法は主に単一モーダル内の特徴分布に重点を置いているが、複数のモーダルにメトリクス(例えばCLIPScore)を組み込むことはできず、射影空間におけるメートルランドスケープのカーネルレグレッションを学習することで、高精度にクロスモーダル埋め込みメトリックを可視化する新しいDR技術であるAKRMapを導入する。
具体的には、AKRMapは、投影後のカーネル回帰損失によって誘導される教師付きプロジェクションネットワークを構築し、プロジェクションとの共同最適化が可能な適応的な一般化されたカーネルを使用する。
このアプローチにより、AKRMapは複雑なメトリック分布をキャプチャする視覚化を効率的に生成できると同時に、ズームやオーバーレイといったインタラクティブな機能もサポートする。
定量的実験により、AKRMapは既存のDRメソッドよりも正確で信頼性の高い可視化を生成することが示されている。
さらに,テキスト・ツー・イメージ・モデルにおけるモーダル・埋め込みの可視化と比較におけるAKRMapの有効性を示す。
コードとデモはhttps://github.com/yilinye/AKRMapで公開されている。
関連論文リスト
- GMM-Based Comprehensive Feature Extraction and Relative Distance Preservation For Few-Shot Cross-Modal Retrieval [13.928213494843744]
クロスモーダル検索は、限られたトレーニングサンプルを用いたクロスモーダル表現の学習に焦点を当てている。
既存の手法では、数発のクロスモーダルデータのマルチピーク分布を適切にモデル化できない場合が多い。
画像特徴量とテキスト特徴量との相対的距離を制約するクロスモーダルなセマンティックアライメントのための新しい戦略を導入する。
論文 参考訳(メタデータ) (2025-05-19T16:25:55Z) - OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Fused Geometric and Semantic Guidance [11.085165252259042]
OSMLocは、OpenStreetMapマップに対するファーストパーソナライズされたイメージに基づく、脳にインスパイアされた視覚的ローカライゼーションアプローチである。
意味的および幾何学的ガイダンスを統合し、精度、堅牢性、一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-11-13T14:59:00Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Cross-modal Prototype Driven Network for Radiology Report Generation [30.029659845237077]
放射線学報告生成(RRG)は、人のような言語で自動的に放射線学画像を記述することを目的としており、放射線学者の作業を支援する可能性がある。
従来のアプローチでは、エンコーダ-デコーダアーキテクチャを採用し、単一モードの機能学習に重点を置いていた。
本稿では,クロスモーダルなパターン学習を促進するクロスモーダルなプロトタイプ駆動型ネットワーク (XPRONET) を提案する。
論文 参考訳(メタデータ) (2022-07-11T12:29:33Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。