論文の概要: ATAS: Any-to-Any Self-Distillation for Enhanced Open-Vocabulary Dense Prediction
- arxiv url: http://arxiv.org/abs/2506.08678v1
- Date: Tue, 10 Jun 2025 10:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.352565
- Title: ATAS: Any-to-Any Self-Distillation for Enhanced Open-Vocabulary Dense Prediction
- Title(参考訳): ATAS:オープン・ボキャブラリ・デンス予測のための自己蒸留技術
- Authors: Juan Yeo, Soonwoo Cha, Jiwoo Song, Hyunbin Jin, Taesup Kim,
- Abstract要約: Any-to-Any Self-Distillation (ATAS)は、セマンティックコヒーレンスときめ細かいアライメントを同時に強化する新しいアプローチである。
ATASはオープン語彙オブジェクト検出とセマンティックセグメンテーションのベンチマークでかなりの性能向上を達成した。
- 参考スコア(独自算出の注目度): 3.7365850182404845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models such as CLIP have recently propelled open-vocabulary dense prediction tasks by enabling recognition of a broad range of visual concepts. However, CLIP still struggles with fine-grained, region-level understanding, hindering its effectiveness on these dense prediction tasks. We identify two pivotal factors required to address this limitation: semantic coherence and fine-grained vision-language alignment. Current adaptation methods often improve fine-grained alignment at the expense of semantic coherence, and often rely on extra modules or supervised fine-tuning. To overcome these issues, we propose Any-to-Any Self-Distillation (ATAS), a novel approach that simultaneously enhances semantic coherence and fine-grained alignment by leveraging own knowledge of a model across all representation levels. Unlike prior methods, ATAS uses only unlabeled images and an internal self-distillation process to refine representations of CLIP vision encoders, preserving local semantic consistency while sharpening local detail recognition. On open-vocabulary object detection and semantic segmentation benchmarks, ATAS achieves substantial performance gains, outperforming baseline CLIP models. These results validate the effectiveness of our approach and underscore the importance of jointly maintaining semantic coherence and fine-grained alignment for advanced open-vocabulary dense prediction.
- Abstract(参考訳): CLIPのような視覚言語モデルは、最近、幅広い視覚概念の認識を可能にすることで、オープン語彙の密接な予測タスクを推進している。
しかし、CLIPはいまだにきめ細かな領域レベルの理解に苦慮しており、これらの密集した予測タスクの有効性を妨げている。
この制限に対処するために必要な2つの重要な要因を,意味的コヒーレンスと微粒な視覚言語アライメントとを同定する。
現在の適応法は意味的コヒーレンスを犠牲にして細粒度アライメントを改善することが多く、余分なモジュールや教師付き微調整に依存することが多い。
これらの問題を克服するために,すべての表現レベルにまたがるモデルの知識を活用することによって,意味的一貫性と微粒化アライメントを同時に強化する新しいアプローチであるAny-to-Any Self-Distillation (ATAS)を提案する。
従来の方法とは異なり、ATASはCLIPビジョンエンコーダの表現を洗練するために、ラベルのない画像と内部の自己蒸留プロセスのみを使用し、局所的なセマンティック一貫性を保ちながら、局所的な詳細認識を鋭くする。
オープンボキャブラリオブジェクト検出とセマンティックセグメンテーションのベンチマークでは、ATASはパフォーマンスが大幅に向上し、ベースラインCLIPモデルを上回っている。
これらの結果は,提案手法の有効性を検証し,高度な開語彙密度予測のための意味的コヒーレンスと微粒化アライメントの両立の重要性を裏付けるものである。
関連論文リスト
- Refining CLIP's Spatial Awareness: A Visual-Centric Perspective [10.936397225984107]
コントラスト言語-画像 事前学習は、言語とのグローバルな整合性が優れているが、空間情報に対する感度は限られている。
最近のアプローチでは、高密度マルチモーダルタスクにおけるCLIPの性能を高めるために、Rerea-Language Alignmentを導入している。
本稿では,CLIP固有の空間構造を保存し,上記の劣化を緩和する空間相関蒸留(SCD)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T07:04:56Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [68.41025728960176]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Active Open-Vocabulary Recognition: Let Intelligent Moving Mitigate CLIP
Limitations [9.444540281544715]
オープン語彙認識のための新しいエージェントを提案する。
提案手法は,クラス固有の知識に頼ることなく,フレーム間の類似性や概念間の類似性を利用してエージェントの動きをナビゲートし,特徴を融合する。
論文 参考訳(メタデータ) (2023-11-28T19:24:07Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。