論文の概要: "Principal Components" Enable A New Language of Images
- arxiv url: http://arxiv.org/abs/2503.08685v1
- Date: Tue, 11 Mar 2025 17:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:42:22.855163
- Title: "Principal Components" Enable A New Language of Images
- Title(参考訳): プリンシパル・コンポーネント」は画像の新しい言語を可能にする
- Authors: Xin Wen, Bingchen Zhao, Ismail Elezi, Jiankang Deng, Xiaojuan Qi,
- Abstract要約: 証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
- 参考スコア(独自算出の注目度): 79.45806370905775
- License:
- Abstract: We introduce a novel visual tokenization framework that embeds a provable PCA-like structure into the latent token space. While existing visual tokenizers primarily optimize for reconstruction fidelity, they often neglect the structural properties of the latent space -- a critical factor for both interpretability and downstream tasks. Our method generates a 1D causal token sequence for images, where each successive token contributes non-overlapping information with mathematically guaranteed decreasing explained variance, analogous to principal component analysis. This structural constraint ensures the tokenizer extracts the most salient visual features first, with each subsequent token adding diminishing yet complementary information. Additionally, we identified and resolved a semantic-spectrum coupling effect that causes the unwanted entanglement of high-level semantic content and low-level spectral details in the tokens by leveraging a diffusion decoder. Experiments demonstrate that our approach achieves state-of-the-art reconstruction performance and enables better interpretability to align with the human vision system. Moreover, auto-regressive models trained on our token sequences achieve performance comparable to current state-of-the-art methods while requiring fewer tokens for training and inference.
- Abstract(参考訳): 証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
既存のビジュアルトークンーザは、主に再構成の忠実さを最適化するが、それらはしばしば潜在空間の構造的特性を無視し、解釈可能性と下流のタスクの両方にとって重要な要素である。
提案手法は画像用1D因果トークンシーケンスを生成し,各連続トークンは,主成分分析に類似した説明分散の減少を数学的に保証した非重複情報に寄与する。
この構造的制約により、トークン化器はまず最も健全な視覚的特徴を抽出し、その後、各トークンは減少するが相補的な情報を付加する。
さらに,拡散デコーダを利用して,高レベルなセマンティックコンテンツと低レベルなスペクトルの詳細の絡み合いを引き起こすセマンティック・スペクトル結合効果の同定と解決を行った。
実験により,本手法は最先端の再建性能を実現し,人間の視覚システムとの整合性を向上することを示す。
さらに、トークンシーケンスでトレーニングされた自動回帰モデルは、現在の最先端メソッドに匹敵するパフォーマンスを実現します。
関連論文リスト
- CoCoNO: Attention Contrast-and-Complete for Initial Noise Optimization in Text-to-Image Synthesis [8.386261591495103]
自己注意マップと相互注意マップの相補的な情報を活用することで、初期潜伏者を最適化する新しいアルゴリズムであるCoCoNOを導入する。
本手法では,各自己注意区間が特定の被験者のクロスアテンションマップにのみリンクされていることを保証することで,所望のオーバーラップを最小化するアテンションコントラストロスと,これらのセグメント内でのアクティベーションを最大化し,各被写体が完全に明確に表現されることを保証するアテンション完全ロスという2つの新たなロス関数を導入する。
論文 参考訳(メタデータ) (2024-11-25T08:20:14Z) - Enhancing Conditional Image Generation with Explainable Latent Space Manipulation [0.0]
本稿では,条件付きプロンプトに固執しながら,参照画像への忠実性を実現するための新しいアプローチを提案する。
そこで我々は,クロスアテンション・レイヤのクロスアテンション・マップと遅延ベクトルの勾配を解析した。
この情報を用いて,被写体を保存しつつ,参照画像の特徴をシームレスに統合し,特定のタイミングでマスクを作成する。
論文 参考訳(メタデータ) (2024-08-29T03:12:04Z) - LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。
われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文 参考訳(メタデータ) (2024-05-29T00:36:56Z) - Deep Common Feature Mining for Efficient Video Semantic Segmentation [25.851900402539467]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。
DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。
自己教師付き損失関数を組み込んで,クラス内特徴の類似性を強化し,時間的整合性を高める。
論文 参考訳(メタデータ) (2024-03-05T06:17:59Z) - Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale
Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。
本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。
我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文 参考訳(メタデータ) (2023-11-21T08:20:38Z) - Deep Semantic Statistics Matching (D2SM) Denoising Network [70.01091467628068]
本稿では,Deep Semantic Statistics Matching (D2SM) Denoising Networkを紹介する。
事前訓練された分類ネットワークの意味的特徴を利用して、意味的特徴空間における明瞭な画像の確率的分布と暗黙的に一致させる。
識別画像のセマンティックな分布を学習することで,ネットワークの認知能力を大幅に向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2022-07-19T14:35:42Z) - Self-Supervised Consistent Quantization for Fully Unsupervised Image
Retrieval [17.422973861218182]
教師なし画像検索は、高価なデータアノテーションを使わずに効率的な検索システムを学習することを目的としている。
近年の進歩は、視覚的特徴と量子化符号を協調的に最適化するために、深いモデルをスクラッチからトレーニングすることを目的とした、完全な教師なし画像検索を提案する。
本稿では, 部分一貫した量子化と大域一貫した量子化からなる, 完全教師なし画像検索のための, 自己教師付き一貫した量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-20T14:39:59Z) - Synthetic Convolutional Features for Improved Semantic Segmentation [139.5772851285601]
本稿では、中間畳み込み特徴を生成することを提案し、そのような中間畳み込み特徴に対応する最初の合成手法を提案する。
これにより、ラベルマスクから新機能を生成し、トレーニング手順にうまく組み込むことができます。
Cityscapes と ADE20K の2つの挑戦的なデータセットに関する実験結果と分析により,生成した特徴がセグメンテーションタスクのパフォーマンスを向上させることが示された。
論文 参考訳(メタデータ) (2020-09-18T14:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。