論文の概要: On the Provable Importance of Gradients for Language-Assisted Image Clustering
- arxiv url: http://arxiv.org/abs/2510.16335v1
- Date: Sat, 18 Oct 2025 03:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.954195
- Title: On the Provable Importance of Gradients for Language-Assisted Image Clustering
- Title(参考訳): 言語支援画像クラスタリングにおけるグラディエントの重要性について
- Authors: Bo Peng, Jie Lu, Guangquan Zhang, Zhen Fang,
- Abstract要約: 本稿では,最近出現した言語支援画像クラスタリング(LaIC)の問題点について考察する。
LaICの中核的な課題の1つは、正の名詞、すなわち興味のイメージにセマンティックに近づいた名詞を、ラベルのない野生のコーパスデータからフィルタリングする方法である。
そこで我々は,GradNormと呼ばれる新しい勾配ベースのフレームワークを提案し,理論上は保証され,経験的性能が強いことを示す。
- 参考スコア(独自算出の注目度): 30.819876174251863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the recently emerged problem of Language-assisted Image Clustering (LaIC), where textual semantics are leveraged to improve the discriminability of visual representations to facilitate image clustering. Due to the unavailability of true class names, one of core challenges of LaIC lies in how to filter positive nouns, i.e., those semantically close to the images of interest, from unlabeled wild corpus data. Existing filtering strategies are predominantly based on the off-the-shelf feature space learned by CLIP; however, despite being intuitive, these strategies lack a rigorous theoretical foundation. To fill this gap, we propose a novel gradient-based framework, termed as GradNorm, which is theoretically guaranteed and shows strong empirical performance. In particular, we measure the positiveness of each noun based on the magnitude of gradients back-propagated from the cross-entropy between the predicted target distribution and the softmax output. Theoretically, we provide a rigorous error bound to quantify the separability of positive nouns by GradNorm and prove that GradNorm naturally subsumes existing filtering strategies as extremely special cases of itself. Empirically, extensive experiments show that GradNorm achieves the state-of-the-art clustering performance on various benchmarks.
- Abstract(参考訳): 本稿では,言語支援画像クラスタリング(LaIC, Language-Assisted Image Clustering)の最近の課題について考察する。
真のクラス名は利用できないため、LaICの中核的な課題の1つは、正の名詞、すなわち興味のイメージにセマンティックに近づいた名詞を、ラベルのない野生のコーパスデータからフィルターする方法にある。
既存のフィルタリング戦略は主にCLIPが学んだ既成の機能空間に基づいているが、直感的であるにもかかわらず、厳密な理論的基盤は欠如している。
このギャップを埋めるために,GradNormと呼ばれる新しい勾配ベースのフレームワークを提案する。
特に,予測対象分布とソフトマックス出力との交叉エントロピーから逆転する勾配の大きさに基づいて,各名詞の正性を測定する。
理論的には、GradNorm による正の名詞の分離性を定量化するための厳密な誤差を提供し、GradNorm が自然に既存のフィルタリング戦略を自分自身の極端に特別な場合として仮定することを証明している。
実証的な実験により、GradNormは様々なベンチマークで最先端のクラスタリング性能を達成している。
関連論文リスト
- IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis [46.502962768034166]
Zero-shot Referring Imageは、トレーニングや微調整なしで参照式に最も適したインスタンスマスクを特定する。
従来のCLIPモデルでは、物体の相対的な空間的関係を識別する能力が顕著に低下していた。
IteRPrimEは従来の最先端のゼロショットメソッドよりも優れており、特にドメイン外のシナリオでは優れている。
論文 参考訳(メタデータ) (2025-03-02T15:19:37Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - Semi-supervised Semantic Segmentation Meets Masked Modeling:Fine-grained
Locality Learning Matters in Consistency Regularization [31.333862320143968]
半教師付きセマンティックセグメンテーションはラベル付き画像と豊富なラベル付き画像を利用してラベル効率の高い学習を実現することを目的としている。
我々は,より詳細な局所性学習により,より高密度なセグメンテーションを実現する,textttMaskMatchという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T03:28:53Z) - Pseudo Contrastive Learning for Graph-based Semi-supervised Learning [67.37572762925836]
Pseudo Labelingは、グラフニューラルネットワーク(GNN)の性能向上に使用されるテクニックである。
我々はPseudo Contrastive Learning(PCL)と呼ばれるGNNのための一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-19T10:34:08Z) - Model-Aware Contrastive Learning: Towards Escaping the Dilemmas [11.27589489269041]
コントラスト学習(CL)は、複数の領域にわたる重要なブレークスルーを継続的に達成する。
InfoNCEベースの手法は、テクスチュニフォーム・トレランス・ジレンマ(UTD)やテクスチュイディグレート・リダクション(UTD)など、いくつかのジレンマに悩まされている。
本稿では,インスタンス識別タスクの基本的な信頼性を反映したアライメントの程度に温度が適応するモデル認識コントラスト学習(MACL)戦略を提案する。
論文 参考訳(メタデータ) (2022-07-16T08:21:55Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - MatchGAN: A Self-Supervised Semi-Supervised Conditional Generative
Adversarial Network [51.84251358009803]
本稿では,条件付き生成逆数ネットワーク(GAN)に対する,半教師付き環境下での自己教師型学習手法を提案する。
利用可能な数少ないラベル付きサンプルのラベル空間から無作為なラベルをサンプリングして拡張を行う。
本手法は,ベースラインのトレーニングに使用したラベル付きサンプルの20%に過ぎません。
論文 参考訳(メタデータ) (2020-06-11T17:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。