論文の概要: ViTCAE: ViT-based Class-conditioned Autoencoder
- arxiv url: http://arxiv.org/abs/2509.16554v1
- Date: Sat, 20 Sep 2025 06:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.856444
- Title: ViTCAE: ViT-based Class-conditioned Autoencoder
- Title(参考訳): ViTCAE: ViT ベースのクラスコンディショニングオートエンコーダ
- Authors: Vahid Jebraeeli, Hamid Krim, Derya Cansever,
- Abstract要約: Vision Transformer (ViT) ベースのオートエンコーダはグローバルクラストークンを使用せず、静的アテンション機構を使用することが多い。
本稿では,クラストークンを生成リンチピンに変換することで,これらの問題に対処するフレームワークであるViTCAEを紹介する。
- 参考スコア(独自算出の注目度): 8.844699137494105
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision Transformer (ViT) based autoencoders often underutilize the global Class token and employ static attention mechanisms, limiting both generative control and optimization efficiency. This paper introduces ViTCAE, a framework that addresses these issues by re-purposing the Class token into a generative linchpin. In our architecture, the encoder maps the Class token to a global latent variable that dictates the prior distribution for local, patch-level latent variables, establishing a robust dependency where global semantics directly inform the synthesis of local details. Drawing inspiration from opinion dynamics, we treat each attention head as a dynamical system of interacting tokens seeking consensus. This perspective motivates a convergence-aware temperature scheduler that adaptively anneals each head's influence function based on its distributional stability. This process enables a principled head-freezing mechanism, guided by theoretically-grounded diagnostics like an attention evolution distance and a consensus/cluster functional. This technique prunes converged heads during training to significantly improve computational efficiency without sacrificing fidelity. By unifying a generative Class token with an adaptive attention mechanism rooted in multi-agent consensus theory, ViTCAE offers a more efficient and controllable approach to transformer-based generation.
- Abstract(参考訳): Vision Transformer (ViT) ベースのオートエンコーダは、グローバルクラストークンを過小評価し、静的アテンション機構を使用し、生成制御と最適化の効率を制限している。
本稿では,クラストークンを生成リンチピンに変換することで,これらの問題に対処するフレームワークであるViTCAEを紹介する。
我々のアーキテクチャでは、エンコーダはクラストークンをグローバル潜在変数にマッピングし、ローカルなパッチレベルの潜在変数の事前分布を規定し、グローバルなセマンティクスが局所的な詳細の合成を直接通知する堅牢な依存関係を確立する。
意見力学からインスピレーションを得るため、各注意頭はコンセンサスを求める対話トークンの動的システムとして扱う。
この視点は、その分布安定性に基づいて各ヘッドの影響関数を適応的に緩和する収束対応温度スケジューラを動機付けている。
このプロセスは、注意進化距離やコンセンサス/クラスタ機能といった理論上の診断によって導かれる、原則化されたヘッドフリーズ機構を実現する。
この技術は訓練中に収束した頭部をプルーニングし、忠実さを犠牲にすることなく計算効率を大幅に向上させる。
多エージェントコンセンサス理論に根ざした適応的注意機構を持つ生成クラストークンを統一することにより、VTCAEはトランスフォーマーベースの生成に対してより効率的で制御可能なアプローチを提供する。
関連論文リスト
- Attention Schema-based Attention Control (ASAC): A Cognitive-Inspired Approach for Attention Management in Transformers [6.853513140582486]
本稿では、アテンションスキーマの概念を人工ニューラルネットワークに統合したASAC(Attention-based Attention Control)を紹介する。
本手法は,アテンションアロケーションを明示的にモデル化することにより,システム効率を向上させることを目的としている。
視覚領域とNLP領域の両方においてASACの有効性を実証し、分類精度を改善し、学習プロセスを高速化する能力を強調した。
論文 参考訳(メタデータ) (2025-09-19T15:08:30Z) - DEAL: Disentangling Transformer Head Activations for LLM Steering [19.770342907146965]
本稿では,変圧器における行動関連アテンションヘッドの同定のための因果属性フレームワークを提案する。
各ヘッドに対して,ベクトル量子化オートエンコーダ(VQ-AE)をアテンションアクティベーションに基づいてトレーニングする。
行動整合性と行動違反性に対するVQ-AEエンコーディングの分離性により,各頭部の行動関連性を評価する。
論文 参考訳(メタデータ) (2025-06-10T02:16:50Z) - Enhancing Transformers Through Conditioned Embedded Tokens [28.80560770188464]
本研究では,アテンションブロックの条件付けと埋め込みトークン化データの条件付けの直接的な関係を確立する理論的枠組みを開発する。
本研究では,アテンション機構のコンディショニングを改善するために,組込みトークンを体系的に修正するコンディショニングトークンを導入する。
我々の分析は、このアプローチが不調を著しく軽減し、より安定かつ効率的な訓練につながることを示している。
論文 参考訳(メタデータ) (2025-05-19T07:21:53Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Is Disentanglement enough? On Latent Representations for Controllable
Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-08-01T18:37:43Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z) - Hierarchical Variational Autoencoder for Visual Counterfactuals [79.86967775454316]
条件変量オート(VAE)は、説明可能な人工知能(XAI)ツールとして注目されている。
本稿では, 後部の効果がいかに緩和され, 対物的効果が成功するかを示す。
本稿では,アプリケーション内の分類器を視覚的に監査できる階層型VAEについて紹介する。
論文 参考訳(メタデータ) (2021-02-01T14:07:11Z) - Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。
Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。
大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文 参考訳(メタデータ) (2020-06-15T22:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。