論文の概要: Disentangling Latent Embeddings with Sparse Linear Concept Subspaces (SLiCS)
- arxiv url: http://arxiv.org/abs/2508.20322v1
- Date: Wed, 27 Aug 2025 23:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.863825
- Title: Disentangling Latent Embeddings with Sparse Linear Concept Subspaces (SLiCS)
- Title(参考訳): SLiCS(Sparse Linear Concept Subspaces)を用いたディペンタングリング遅延埋め込み
- Authors: Zhi Li, Hau Phan, Matthew Emigh, Austin J. Brockmeier,
- Abstract要約: CLIPのようなビジョン言語の共同埋め込みネットワークは、セマンティック情報を備えた潜在的な埋め込み空間を提供する。
本稿では,ベクトル群の疎結合,非負結合からなる線形合成モデルを推定するための教師付き辞書学習手法を提案する。
スパース線形概念部分空間(SLiCS)によって提供される不整合埋め込みにより,概念フィルタリング画像の検索が可能となることを示す。
- 参考スコア(独自算出の注目度): 2.7255100506777894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language co-embedding networks, such as CLIP, provide a latent embedding space with semantic information that is useful for downstream tasks. We hypothesize that the embedding space can be disentangled to separate the information on the content of complex scenes by decomposing the embedding into multiple concept-specific component vectors that lie in different subspaces. We propose a supervised dictionary learning approach to estimate a linear synthesis model consisting of sparse, non-negative combinations of groups of vectors in the dictionary (atoms), whose group-wise activity matches the multi-label information. Each concept-specific component is a non-negative combination of atoms associated to a label. The group-structured dictionary is optimized through a novel alternating optimization with guaranteed convergence. Exploiting the text co-embeddings, we detail how semantically meaningful descriptions can be found based on text embeddings of words best approximated by a concept's group of atoms, and unsupervised dictionary learning can exploit zero-shot classification of training set images using the text embeddings of concept labels to provide instance-wise multi-labels. We show that the disentangled embeddings provided by our sparse linear concept subspaces (SLiCS) enable concept-filtered image retrieval (and conditional generation using image-to-prompt) that is more precise. We also apply SLiCS to highly-compressed autoencoder embeddings from TiTok and the latent embedding from self-supervised DINOv2. Quantitative and qualitative results highlight the improved precision of the concept-filtered image retrieval for all embeddings.
- Abstract(参考訳): CLIPのようなビジョン言語の共同埋め込みネットワークは、下流タスクに有用なセマンティック情報を備えた潜時埋め込みスペースを提供する。
埋め込み空間は、異なる部分空間にある複数の概念固有のコンポーネントベクトルに分解することで、複雑なシーンの内容に関する情報を分離することが出来ると仮定する。
本稿では,多ラベル情報に一致したベクトル群(原子)の疎結合,非負結合からなる線形合成モデルについて,教師付き辞書学習手法を提案する。
それぞれの概念固有の成分は、ラベルに関連付けられた原子の非負の結合である。
グループ構造辞書は、保証収束を伴う新しい交互最適化によって最適化される。
テキストを共同埋め込みする際、概念の原子群に最もよく近似された単語のテキスト埋め込みに基づいて意味的に意味のある記述がいかに見つけられるかを詳述し、教師なし辞書学習は概念ラベルのテキスト埋め込みを用いて訓練セット画像のゼロショット分類を活用でき、事例対応のマルチラベルを提供する。
SLiCS(Sparse linear concept subspaces)によって提供される不整合埋め込みにより、より正確な概念フィルタリング画像検索(および画像からプロンプトを用いた条件生成)が可能となることを示す。
また,SLiCSをTiTokからの高圧縮自己エンコーダ埋め込みや自己教師型DINOv2からの潜伏埋め込みに適用する。
定量的および定性的な結果は、すべての埋め込みに対する概念フィルタ画像検索の精度の向上を浮き彫りにする。
関連論文リスト
- Cross-Layer Discrete Concept Discovery for Interpreting Language Models [13.842670153893977]
クロス層VQ-VAEは、ベクトル量子化を使用して層間の表現をマッピングするフレームワークである。
本手法は,量子化中のトップk温度に基づくサンプリングとEMAコードブック更新を一意に組み合わせる。
論文 参考訳(メタデータ) (2025-06-24T22:43:36Z) - Descriminative-Generative Custom Tokens for Vision-Language Models [101.40245125955306]
本稿では,視覚言語モデル(VLM)における新しい概念を表現するためのカスタムトークンの学習の可能性について検討する。
本研究の目的は,識別的タスクと生成的タスクの両方に有効なトークンを学習し,単語をうまく合成して新しい入力クエリを構築することである。
論文 参考訳(メタデータ) (2025-02-17T18:13:42Z) - Incorporating Feature Pyramid Tokenization and Open Vocabulary Semantic Segmentation [8.659766913542938]
我々は、すべての粒度の理解のために、統合された知覚的および意味的トークン圧縮について研究する。
本稿では,学習可能なコードブックによる多面的特徴のクラスタ化と多面的特徴の表現を目的とした特徴ピラミッドトークン化(PAT)を提案する。
実験の結果,PATはVLM特徴ピラミッドの意味的直感を増強することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:43:21Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
画像間の差異のテキスト記述が画像埋め込み空間の差に対応するようにCLIPを微調整する。
提案手法は,特定の属性によって画像のランク付け能力を大幅に向上させ,下流画像分類タスクにおけるゼロショット分類性能を向上する。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation [55.99632509895994]
マルチアスペクトセマンティックトークン化のための新しいアプローチであるLAMIAを紹介する。
単一の埋め込みを使用するRQ-VAEとは異なり、LAMIAは独立的でセマンティックな並列な埋め込みの集合である「アイテムパレット」を学習する。
その結果,提案手法よりも提案手法の精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - Linear Spaces of Meanings: Compositional Structures in Vision-Language
Models [110.00434385712786]
事前学習された視覚言語モデル(VLM)からのデータ埋め込みにおける構成構造について検討する。
まず,幾何学的観点から構成構造を理解するための枠組みを提案する。
次に、これらの構造がVLM埋め込みの場合の確率論的に持つものを説明し、実際に発生する理由の直観を提供する。
論文 参考訳(メタデータ) (2023-02-28T08:11:56Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - On the Learnability of Concepts: With Applications to Comparing Word
Embedding Algorithms [0.0]
セマンティックコンテンツを共有した単語の一覧として「概念」の概念を導入する。
まず、この概念を用いて、事前訓練された単語埋め込みにおける概念の学習可能性を測定する。
そこで我々は,様々な埋め込みアルゴリズムの相対的メリットを比較するために,仮説テストとROC曲線に基づく概念学習可能性の統計的解析を開発した。
論文 参考訳(メタデータ) (2020-06-17T14:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。