論文の概要: CLIPSym: Delving into Symmetry Detection with CLIP
- arxiv url: http://arxiv.org/abs/2508.14197v1
- Date: Tue, 19 Aug 2025 18:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.245021
- Title: CLIPSym: Delving into Symmetry Detection with CLIP
- Title(参考訳): CLIPSym: CLIPによるシンメトリー検出
- Authors: Tinghan Yang, Md Ashiqur Rahman, Raymond A. Yeh,
- Abstract要約: 本稿では,CLIPモデルが自然画像記述にみられる追加の対称性の手がかりを活用することで,対称性検出に有効かどうかを検討する。
本稿では,CLIPのイメージおよび言語エンコーダを活用するCLIPSymと,Transformerと$G$-Convolutionのハイブリッドをベースとした回転等価デコーダを提案する。
実験により,CLIPSymは3つの標準対称性検出データセットにおいて,現状よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 10.92660804315992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Symmetry is one of the most fundamental geometric cues in computer vision, and detecting it has been an ongoing challenge. With the recent advances in vision-language models,~i.e., CLIP, we investigate whether a pre-trained CLIP model can aid symmetry detection by leveraging the additional symmetry cues found in the natural image descriptions. We propose CLIPSym, which leverages CLIP's image and language encoders and a rotation-equivariant decoder based on a hybrid of Transformer and $G$-Convolution to detect rotation and reflection symmetries. To fully utilize CLIP's language encoder, we have developed a novel prompting technique called Semantic-Aware Prompt Grouping (SAPG), which aggregates a diverse set of frequent object-based prompts to better integrate the semantic cues for symmetry detection. Empirically, we show that CLIPSym outperforms the current state-of-the-art on three standard symmetry detection datasets (DENDI, SDRW, and LDRS). Finally, we conduct detailed ablations verifying the benefits of CLIP's pre-training, the proposed equivariant decoder, and the SAPG technique. The code is available at https://github.com/timyoung2333/CLIPSym.
- Abstract(参考訳): シンメトリーはコンピュータビジョンにおける最も基本的な幾何学的手がかりの1つであり、それを検出することは現在進行中の課題である。
視覚言語モデル(例えばCLIP)の最近の進歩により、自然画像記述にみられる追加の対称性の手がかりを利用することで、事前学習したCLIPモデルが対称性の検出に役立てられるかどうかを考察する。
本稿では,CLIPのイメージおよび言語エンコーダと,Transformerと$G$-Convolutionのハイブリッドに基づく回転等価デコーダを利用して,回転と反射の対称性を検出するCLIPSymを提案する。
CLIPの言語エンコーダをフル活用するために,多種多様なオブジェクトベースのプロンプトを集約し,対称性検出のためのセマンティック・アウェア・プロンプト・グループ(SAPG)と呼ばれる新しいプロンプト技術を開発した。
実験により,CLIPSymは3つの標準対称性検出データセット(DENDI, SDRW, LDRS)において,現状よりも優れていることを示す。
最後に,CLIPの事前学習,提案した同変復号器,SAPG手法の利点を詳細に検証する。
コードはhttps://github.com/timyoung2333/CLIPSymで入手できる。
関連論文リスト
- Bridge Feature Matching and Cross-Modal Alignment with Mutual-filtering for Zero-shot Anomaly Detection [25.349261412750586]
本研究では,ZSAD 用 textbfFiSeCLIP とトレーニング不要 textbfCLIP を導入し,特徴マッチングとクロスモーダルアライメントを組み合わせた。
本手法は,異常検出ベンチマークにおいて,異常分類とセグメンテーションの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2025-07-15T05:42:17Z) - MadCLIP: Few-shot Medical Anomaly Detection with CLIP [14.023527193608142]
医療データに事前訓練されたCLIPモデルを活用する,革新的な数発の異常検出手法を提案する。
学習可能なアダプタを用いて,正常な特徴と異常な特徴を別々に捉えるために,デュアルブランチ設計を提案する。
セマンティックアライメントを改善するために、学習可能なテキストプロンプトを使用して視覚的特徴をリンクする。
論文 参考訳(メタデータ) (2025-06-30T12:56:17Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - R2Det: Exploring Relaxed Rotation Equivariance in 2D object detection [26.05910177212846]
Group Equivariant Convolution (GConv) は、データにおける基礎となる対称性を探索し、パフォーマンスを向上させるためにモデルに権限を与える。
我々は、GConvと比較して4n$のパラメータが最小限に増大する新しいRelaxed Rotation-Equivariant GConv(R2GConv)を導入する。
R2GConvをベースとして,Relaxed Rotation-Equivariant Network (R2Net) をバックボーンとして提案し,2次元物体検出のためのRelaxed Rotation-Equivariant Object Detector (R2Det) を開発した。
論文 参考訳(メタデータ) (2024-08-21T16:32:03Z) - Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation [10.502680141980642]
オープンボキャブラリセマンティックセグメンテーションは、画像中の各ピクセルに任意のテキスト記述をラベル付けしようとする。
視覚言語基盤モデル、特にCLIPは、オープン語彙能力を取得するための強力なツールとして登場した。
H-CLIPは、CLIPの総パラメータの約4%を更新するだけで、新しいSOTAオープン語彙セマンティックセマンティックセマンティクス結果を達成する。
論文 参考訳(メタデータ) (2024-05-29T07:41:34Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Symmetry-Aware Transformer-based Mirror Detection [85.47570468668955]
デュアルパス・シンメトリ・アウェア・トランスフォーマーを用いたミラー検出ネットワーク(SATNet)を提案する。
SATNetにはSymmetry-Aware Attention Module (SAAM)とContrastとFusion Decoder Module (CFDM)の2つの新しいモジュールが含まれている。
実験の結果,SATNet は RGB と RGB-D の両方のミラー検出法に優れることがわかった。
論文 参考訳(メタデータ) (2022-07-13T16:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。