論文の概要: SketchFusion: Learning Universal Sketch Features through Fusing Foundation Models
- arxiv url: http://arxiv.org/abs/2503.14129v1
- Date: Tue, 18 Mar 2025 10:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:15:51.209613
- Title: SketchFusion: Learning Universal Sketch Features through Fusing Foundation Models
- Title(参考訳): SketchFusion: ファウンデーションモデルによるユニバーサルスケッチ機能学習
- Authors: Subhadeep Koley, Tapas Kumar Dutta, Aneeshan Sain, Pinaki Nath Chowdhury, Ayan Kumar Bhunia, Yi-Zhe Song,
- Abstract要約: 体系的な分析に基づいて、スケッチ理解のための基礎モデルの2つの基本的な限界を明らかにする。
SDとCLIPを戦略的に組み合わせることで,これらの制約に対処する。
CLIPの機能をSDのデノナイズプロセスに動的に注入し,セマンティックレベルでの機能を適応的に集約することにより,スケッチ検索における最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 80.90808879991182
- License:
- Abstract: While foundation models have revolutionised computer vision, their effectiveness for sketch understanding remains limited by the unique challenges of abstract, sparse visual inputs. Through systematic analysis, we uncover two fundamental limitations: Stable Diffusion (SD) struggles to extract meaningful features from abstract sketches (unlike its success with photos), and exhibits a pronounced frequency-domain bias that suppresses essential low-frequency components needed for sketch understanding. Rather than costly retraining, we address these limitations by strategically combining SD with CLIP, whose strong semantic understanding naturally compensates for SD's spatial-frequency biases. By dynamically injecting CLIP features into SD's denoising process and adaptively aggregating features across semantic levels, our method achieves state-of-the-art performance in sketch retrieval (+3.35%), recognition (+1.06%), segmentation (+29.42%), and correspondence learning (+21.22%), demonstrating the first truly universal sketch feature representation in the era of foundation models.
- Abstract(参考訳): 基礎モデルはコンピュータビジョンに革命をもたらしたが、スケッチ理解の有効性は、抽象的でまばらな視覚入力の独特な課題によって制限されている。
安定拡散(SD)は抽象的スケッチから意味のある特徴を引き出すのに苦労し(写真での成功とは違い)、スケッチ理解に必要な必須の低周波成分を抑圧する顕著な周波数領域バイアスを示す。
SDとCLIPを戦略的に組み合わせることで,SDの空間周波数バイアスを自然な意味論的理解が補うことにより,これらの制約に対処する。
CLIPの機能をSDのデノナイジングプロセスに動的に注入し、セマンティックレベルの特徴を適応的に集約することにより、スケッチ検索(+3.35%)、認識(+1.06%)、セグメンテーション(+29.42%)、対応学習(+21.22%)において最先端の性能を達成する。
関連論文リスト
- Relation-Aware Meta-Learning for Zero-shot Sketch-Based Image Retrieval [89.15541654536544]
スケッチベースの画像検索(SBIR)は、同じクラス内で自然写真を取得するためにフリーハンドスケッチに依存している。
この制限に対処するため、タスクはゼロショットSketch-based Image Retrieval (ZS-SBIR)へと進化した。
本稿では,ZS-SBIRのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-28T09:35:27Z) - Affinity-Graph-Guided Contractive Learning for Pretext-Free Medical Image Segmentation with Minimal Annotation [55.325956390997]
本稿では,医用画像セグメンテーションのための親和性グラフ誘導半教師付きコントラスト学習フレームワーク(Semi-AGCL)を提案する。
このフレームワークは、まず、ロバストな初期特徴空間を提供する平均パッチエントロピー駆動のパッチ間サンプリング法を設計する。
完全アノテーションセットの10%に過ぎず, 完全注釈付きベースラインの精度にアプローチし, 限界偏差は2.52%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-14T10:44:47Z) - Multi-Style Facial Sketch Synthesis through Masked Generative Modeling [17.313050611750413]
本稿では,画像と対応するマルチスタイリズドスケッチを効率よく変換する軽量なエンドツーエンド合成モデルを提案する。
本研究では,半教師付き学習を学習プロセスに取り入れることで,データ不足の問題を克服する。
提案手法は,複数のベンチマークで従来アルゴリズムより常に優れていた。
論文 参考訳(メタデータ) (2024-08-22T13:45:04Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Transductive Zero-Shot Learning by Decoupled Feature Generation [30.664199050468472]
本稿では,未確認のクラスからの未表示の視覚データを利用できるトランスダクティブ・セッティングに着目する。
本稿では,現実的な視覚的特徴を生成し,意味的属性を視覚的手がかりに変換するタスクを分離することを提案する。
本研究は,提案手法の有効性を解明する上で,関連する最先端技術に対する優位性を実証するための詳細なアブレーション研究である。
論文 参考訳(メタデータ) (2021-02-05T16:17:52Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z) - DISK: Learning local features with policy gradient [63.12124363163665]
局所的な特徴フレームワークは、スパースキーポイントの選択とマッチングに固有の離散性のため、エンドツーエンドで学ぶのは難しい。
DISK(DIScrete Keypoints)は,強化学習(Reinforcement Learning, RL)の原則を活用することで,これらの障害を克服する新しい手法である。
私たちの単純で表現力に富んだ確率的モデルは、トレーニングと推論体制を密に保ちながら、スクラッチから確実にトレーニングできる十分な収束特性を維持します。
論文 参考訳(メタデータ) (2020-06-24T08:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。