論文の概要: TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection
- arxiv url: http://arxiv.org/abs/2510.21171v2
- Date: Mon, 27 Oct 2025 02:24:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.643357
- Title: TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection
- Title(参考訳): TokenCLIP:ゼロショット異常検出のためのToken-wise Prompt Learning
- Authors: Qihang Zhou, Binbin Gao, Guansong Pang, Xin Wang, Jiming Chen, Shibo He,
- Abstract要約: TokenCLIPは、異常学習のためのトークンワイド適応フレームワークである。
視覚的なテキスト空間と学習可能なテキスト空間の動的アライメントを可能にし、微粒な異常学習を実現する。
- 参考スコア(独自算出の注目度): 62.95726973851089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting CLIP for anomaly detection on unseen objects has shown strong potential in a zero-shot manner. However, existing methods typically rely on a single textual space to align with visual semantics across diverse objects and domains. The indiscriminate alignment hinders the model from accurately capturing varied anomaly semantics. We propose TokenCLIP, a token-wise adaptation framework that enables dynamic alignment between visual and learnable textual spaces for fine-grained anomaly learning. Rather than mapping all visual tokens to a single, token-agnostic textual space, TokenCLIP aligns each token with a customized textual subspace that represents its visual characteristics. Explicitly assigning a unique learnable textual space to each token is computationally intractable and prone to insufficient optimization. We instead expand the token-agnostic textual space into a set of orthogonal subspaces, and then dynamically assign each token to a subspace combination guided by semantic affinity, which jointly supports customized and efficient token-wise adaptation. To this end, we formulate dynamic alignment as an optimal transport problem, where all visual tokens in an image are transported to textual subspaces based on semantic similarity. The transport constraints of OT ensure sufficient optimization across subspaces and encourage them to focus on different semantics. Solving the problem yields a transport plan that adaptively assigns each token to semantically relevant subspaces. A top-k masking is then applied to sparsify the plan and specialize subspaces for distinct visual regions. Extensive experiments demonstrate the superiority of TokenCLIP.
- Abstract(参考訳): 見えないオブジェクトの異常検出にCLIPを適用すると、ゼロショット方式で強いポテンシャルが示される。
しかし、既存のメソッドは通常、さまざまなオブジェクトやドメインにわたる視覚的意味論と整合するために、単一のテキスト空間に依存している。
無差別アライメントは、モデルが様々な異常セマンティクスを正確にキャプチャすることを妨げる。
TokenCLIPは,視覚と学習可能なテキスト空間間の動的アライメントを可能にするトークンワイド適応フレームワークである。
すべての視覚トークンを1つのトークンに依存しないテキスト空間にマッピングする代わりに、TokenCLIPは各トークンを、その視覚的特徴を表すカスタマイズされたテキストサブスペースと整合させる。
各トークンに固有の学習可能なテキスト空間を明示的に割り当てることは、計算的に難解であり、最適化が不十分である。
代わりに、トークンに依存しないテキスト空間を直交部分空間の集合に拡張し、各トークンを意味親和性によって導かれる部分空間の組み合わせに動的に割り当てる。
この目的のために、画像内のすべての視覚トークンが意味的類似性に基づいてテキストサブ空間に転送される最適な輸送問題として動的アライメントを定式化する。
OTのトランスポート制約により、サブスペース間の十分な最適化が保証され、異なるセマンティクスにフォーカスするよう促される。
問題の解決は、各トークンを意味的に関連する部分空間に適応的に割り当てる輸送計画をもたらす。
その後、トップkマスキングが適用され、プランを拡大し、異なる視覚領域のサブスペースを専門化する。
大規模な実験はTokenCLIPの優位性を示している。
関連論文リスト
- Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Circle-RoPE: Cone-like Decoupled Rotary Positional Embedding for Large Vision-Language Models [49.122200327049676]
ロータリー位置埋め込み(RoPE)は,大規模言語モデルにおいて相対位置情報を符号化する手法として広く採用されている。
視覚言語モデル(VLM)に拡張されると、RoPEとその変種はテキストと画像トークンの間で相対的な位置依存を強制する。
本稿では,スパイラルなクロスモーダルバイアスを除去する新しい符号化方式であるCircle-RoPEを紹介する。
論文 参考訳(メタデータ) (2025-05-22T09:05:01Z) - Descriminative-Generative Custom Tokens for Vision-Language Models [101.40245125955306]
本稿では,視覚言語モデル(VLM)における新しい概念を表現するためのカスタムトークンの学習の可能性について検討する。
本研究の目的は,識別的タスクと生成的タスクの両方に有効なトークンを学習し,単語をうまく合成して新しい入力クエリを構築することである。
論文 参考訳(メタデータ) (2025-02-17T18:13:42Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはオープン語彙セマンティックセグメンテーションに取り組むテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリング(Contrastive Soft Clustering, CSC)を導入し, 導出マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - Tokenize Anything via Prompting [65.93061853439512]
我々は,任意のものを同時にセグメンテーションし,認識し,キャプションすることができる統一的,迅速なモデルを提案する。
我々は、50億のパラメータを持つ事前学習されたCLIPモデルから、巨大なセグメンテーションマスク、eg、SA-1Bマスク、セマンティックプリミティブを持つ一般化可能なモデルをトレーニングする。
我々は,このモデルが汎用領域コンテキストを符号化できる汎用領域レベルの画像トークン化器であると考えている。
論文 参考訳(メタデータ) (2023-12-14T17:01:02Z) - Towards Robust and Semantically Organised Latent Representations for
Unsupervised Text Style Transfer [6.467090475885798]
この摂動モデルを完成させるEPAAE(Perturbed Adrial AutoEncoders)を導入する。
これは、(a)スタイル的に類似した文をまとめるより優れた組織化された潜在空間を生み出すことを実証的に示す。
また、テキストスタイルの転送タスクをNLIデータセットに拡張し、これらのより複雑なスタイル定義がEPAAEによって最もよく学習されていることを示す。
論文 参考訳(メタデータ) (2022-05-04T20:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。