論文の概要: Geometry-Aware CLIP Retrieval via Local Cross-Modal Alignment and Steering
- arxiv url: http://arxiv.org/abs/2604.16487v1
- Date: Mon, 13 Apr 2026 08:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.022811
- Title: Geometry-Aware CLIP Retrieval via Local Cross-Modal Alignment and Steering
- Title(参考訳): 局所的クロスモーダルアライメントとステアリングによる幾何学的CLIP検索
- Authors: Nirmalendu Prakash, Narmeen Fatimah Oozeer, Xin Su, Phillip Howard, Shaan Shah, Zoe Wanying He, Shuang Wu, Shivam Raval, Roy Ka-Wei Lee, Meenakshi Khosla, Amir Abdullah,
- Abstract要約: CLIP検索は通常、共有埋め込み空間におけるポイントワイド類似性問題としてフレーム化される。
CLIPは強いグローバルなクロスモーダルアライメントを実現するが、多くの検索失敗は局所的な幾何学的不整合から生じる。
本研究は,(1) 構造整合性に報いるハンガリー語マッチングによる地区レベルの再ランク付け,(2) クエリ条件付き局所ステアリング,(2) クエリ再形検索の周囲の対照的な地区から導出される方向について紹介する。
- 参考スコア(独自算出の注目度): 17.234516540906593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CLIP retrieval is typically framed as a pointwise similarity problem in a shared embedding space. While CLIP achieves strong global cross-modal alignment, many retrieval failures arise from local geometric inconsistencies: nearby items are incorrectly ordered, leading to systematic confusions (e.g., pentagon vs. hexagon) and produces diffuse, weakly controlled result sets. Prior work largely optimizes for point wise relevance or finetuning to mitigate these problems. We instead view retrieval as a problem of neighborhood alignment. Our work introduces (1) neighborhood-level re-ranking via Hungarian matching, which rewards structural consistency; (2) query-conditioned local steering, where directions derived from contrastive neighborhoods around the query reshape retrieval. We show that these techniques improve retrieval performance on attribute-binding and compositional retrieval tasks. Together, these methods operate on local neighborhoods but serve different roles: re-ranking rewards alignment whereas local steering controls neighborhood structure. This shows that retrieval quality and controllability depend critically on local structure, which can be exploited at inference time without retraining.
- Abstract(参考訳): CLIP検索は通常、共有埋め込み空間におけるポイントワイド類似性問題としてフレーム化される。
CLIPは強いグローバルなクロスモーダルアライメントを実現するが、多くの検索失敗は局所的な幾何学的不整合から生じ、近隣のアイテムは誤って順序付けられ、体系的な混乱(例えば、ペンタゴン対六角形)を引き起こし、拡散し、弱制御された結果セットを生成する。
以前の作業は、ポイントワイドな関連性や、これらの問題を緩和するための微調整に大きく最適化されている。
代わりに、我々は検索を近所のアライメントの問題と見なしている。
本研究は,(1) 構造整合性に報いるハンガリー語マッチングによる地区レベルの再ランク付け,(2) クエリ条件付き局所ステアリング,(2) クエリ再形検索の周囲の対照的な地区から導出される方向について紹介する。
これらの手法により,属性結合および合成検索タスクにおける検索性能が向上することを示す。
これらの手法は、地域地区で運用されているが、異なる役割を担っている: 報酬の調整を再ランク付けする一方、地元のステアリングは地区構造を制御する。
このことは、検索品質と制御性が局所構造に大きく依存していることを示し、再トレーニングなしに推論時に利用することができる。
関連論文リスト
- Robust Scene Coordinate Regression via Geometrically-Consistent Global Descriptors [52.57327385675752]
幾何学的構造と視覚的類似性の両方に整合したグローバルな記述子を学習するアグリゲータモジュールを提案する。
これにより、信頼できないオーバーラップスコアによる誤関連が修正される。
挑戦的なベンチマークの実験では、大規模環境ではかなりのローカライゼーションが得られた。
論文 参考訳(メタデータ) (2025-12-19T04:24:03Z) - A Unified Hierarchical Framework for Fine-grained Cross-view Geo-localization over Large-scale Scenarios [43.8734658237949]
クロスビューなジオローカライゼーションは大規模ローカライゼーション問題に対する有望な解決策である。
本稿では,新しい階層的ジオローカライゼーションフレームワークUnifyGeoを提案する。
タスク分離設定とタスク関連設定の両方において、UnifyGeoは最先端の処理性能を大きく上回ることを示す。
論文 参考訳(メタデータ) (2025-05-12T14:44:31Z) - Local-consistent Transformation Learning for Rotation-invariant Point Cloud Analysis [61.04787144322498]
ポイント形状解析のための局所一貫性変換(LocoTrans)学習戦略を提案する。
まず、LRFにおける2つの軸の対称性を考慮し、LCRF(Local-Consistent Reference frame)を構築する。
整合性は局所的にのみ存在するため、相対的なポーズ情報はネットワークの中間層で失われる。
論文 参考訳(メタデータ) (2024-03-17T06:40:50Z) - Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud Matching [0.0]
局所構造を考慮したグラフラプラシアン固有写像に基づく新しい手法を提案する。
ラプラシアン固有写像の順序と符号のあいまいさに対処するために、結合ラプラシアンと呼ばれる新しい作用素を導入する。
これらの高次元空間間の類似性は、形状に一致するような局所的な意味のあるスコアを与えることを示す。
論文 参考訳(メタデータ) (2024-02-27T10:10:12Z) - Divide&Classify: Fine-Grained Classification for City-Wide Visual Place
Recognition [21.039399444257807]
ディバイド&クラス化(D&C)は、分類ソリューションの高速な推論と、都市全体のきめ細かい設定で検索方法と競合する精度を享受する。
我々は,D&Cを既存の検索パイプラインと組み合わせることで,計算処理を20倍以上高速化し,リコールを増大させることができることを示す。
論文 参考訳(メタデータ) (2023-07-17T11:57:04Z) - Adaptive Spot-Guided Transformer for Consistent Local Feature Matching [64.30749838423922]
局所的特徴マッチングのための適応スポットガイド変換器(ASTR)を提案する。
ASTRは、統一された粗いアーキテクチャにおける局所的な一貫性とスケールのバリエーションをモデル化する。
論文 参考訳(メタデータ) (2023-03-29T12:28:01Z) - On the use of local structural properties for improving the efficiency
of hierarchical community detection methods [77.34726150561087]
本研究では,階層型コミュニティ検出の効率向上のために,局所構造ネットワーク特性をプロキシとして利用する方法について検討する。
また,ネットワークプルーニングの性能への影響を,階層的コミュニティ検出をより効率的にするための補助的手法として検証する。
論文 参考訳(メタデータ) (2020-09-15T00:16:12Z) - Neighborhood Matching Network for Entity Alignment [71.24217694278616]
Neighborhood Matching Network (NMN)は、新しいエンティティアライメントフレームワークである。
NMNは、トポロジカル構造と近傍差の両方を捉えるために、エンティティ間の類似性を推定する。
まず、新しいグラフサンプリング法を用いて、各エンティティの識別的近傍を蒸留する。
その後、クロスグラフの近傍マッチングモジュールを採用し、与えられたエンティティペアの近傍差を共同で符号化する。
論文 参考訳(メタデータ) (2020-05-12T08:26:15Z) - Multi-View Optimization of Local Feature Geometry [70.18863787469805]
本研究では,複数視点からの局所像の特徴の幾何を,未知のシーンやカメラの幾何を伴わずに精査する問題に対処する。
提案手法は,従来の特徴抽出とマッチングのパラダイムを自然に補完する。
本手法は,手作りと学習の両方の局所的特徴に対して,三角測量とカメラのローカライゼーション性能を常に向上することを示す。
論文 参考訳(メタデータ) (2020-03-18T17:22:11Z) - Locally-Adaptive Nonparametric Online Learning [12.018422134251384]
任意のデータシーケンスに適応する効率的なオンラインアルゴリズムを導入する。
木の専門家をベースとした手法を用いて、このような刈り取りと効率的に競合する。
我々の手法は、以前のアプローチで証明されたものよりもはるかに優れた後悔の限界を提供する。
論文 参考訳(メタデータ) (2020-02-05T17:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。