論文の概要: What matters for Representation Alignment: Global Information or Spatial Structure?
- arxiv url: http://arxiv.org/abs/2512.10794v1
- Date: Thu, 11 Dec 2025 16:39:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.466841
- Title: What matters for Representation Alignment: Global Information or Spatial Structure?
- Title(参考訳): 表象アライメントとは何か:グローバル情報か空間構造か?
- Authors: Jaskirat Singh, Xingjian Leng, Zongze Wu, Liang Zheng, Richard Zhang, Eli Shechtman, Saining Xie,
- Abstract要約: 表現アライメント(REPA)は、強い事前訓練された視覚エンコーダから中間拡散特徴への表現を蒸留することにより、生成訓練を導く。
本稿では,対象表現のどの側面が生成に重要であるか,そのテクスト・グロバル・リビジョン・セマンティック・情報について検討する。
我々はREPAの標準射影層を単純な畳み込み層に置き換え、外部表現のための空間正規化層を導入する。
- 参考スコア(独自算出の注目度): 64.67092609921816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representation alignment (REPA) guides generative training by distilling representations from a strong, pretrained vision encoder to intermediate diffusion features. We investigate a fundamental question: what aspect of the target representation matters for generation, its \textit{global} \revision{semantic} information (e.g., measured by ImageNet-1K accuracy) or its spatial structure (i.e. pairwise cosine similarity between patch tokens)? Prevalent wisdom holds that stronger global semantic performance leads to better generation as a target representation. To study this, we first perform a large-scale empirical analysis across 27 different vision encoders and different model scales. The results are surprising; spatial structure, rather than global performance, drives the generation performance of a target representation. To further study this, we introduce two straightforward modifications, which specifically accentuate the transfer of \emph{spatial} information. We replace the standard MLP projection layer in REPA with a simple convolution layer and introduce a spatial normalization layer for the external representation. Surprisingly, our simple method (implemented in $<$4 lines of code), termed iREPA, consistently improves convergence speed of REPA, across a diverse set of vision encoders, model sizes, and training variants (such as REPA, REPA-E, Meanflow, JiT etc). %, etc. Our work motivates revisiting the fundamental working mechanism of representational alignment and how it can be leveraged for improved training of generative models. The code and project page are available at https://end2end-diffusion.github.io/irepa
- Abstract(参考訳): 表現アライメント(REPA)は、強い事前訓練された視覚エンコーダから中間拡散特徴への表現を蒸留することにより、生成訓練を導く。
対象表現のどの側面が生成に重要であるか、その \textit{global} \revision{semantic} 情報(例えば、ImageNet-1K の精度で測定される)、空間構造(パッチトークン間のペアワイズコサイン類似性)について検討する。
一般的な知恵では、より強力なグローバルセマンティックパフォーマンスは、ターゲット表現としてより良い生成をもたらす。
そこで我々はまず,27種類の視覚エンコーダと異なるモデルスケールにわたる大規模実験解析を行った。
空間構造は、グローバルな性能ではなく、ターゲット表現の生成性能を駆動する。
これをさらに研究するために、我々は2つの簡単な修正を導入し、特に \emph{spatial} 情報の転送をアクセント化する。
我々はREPAの標準MLPプロジェクション層を単純な畳み込み層に置き換え、外部表現のための空間正規化層を導入する。
驚いたことに、単純なメソッド($<4 行のコードで実装される)である iREPA は、様々な視覚エンコーダ、モデルサイズ、トレーニング変数(REPA, REPA-E, Meanflow, JiT など)にわたるREPAの収束速度を一貫して改善します。
%などであった。
我々の研究は、表現的アライメントの基本的な作業メカニズムを再考し、それが生成モデルのトレーニングを改善するためにどのように活用できるかを考察する。
コードとプロジェクトページはhttps://end2end-diffusion.github.io/irepaで公開されている。
関連論文リスト
- Mapping representations in Reinforcement Learning via Semantic Alignment for Zero-Shot Stitching [17.76990521486307]
深層強化学習モデルは、環境の観察やタスク要求に小さな変化があったとしても、一般化に失敗することが多い。
そこで本稿では,視覚的およびタスクのバリエーションを学習したエージェント間での潜伏空間間のマッピングをゼロショットで行う手法を提案する。
背景と作業が変化するCarRacing環境において,ゼロショット縫合性能を実証的に実証した。
論文 参考訳(メタデータ) (2025-02-26T22:06:00Z) - How JEPA Avoids Noisy Features: The Implicit Bias of Deep Linear Self Distillation Networks [14.338754598043968]
データ表現の自己教師型学習には2つの競合パラダイムが存在する。
JEPA(Joint Embedding Predictive Architecture)は、意味的に類似した入力が互いに予測可能な表現に符号化されるアーキテクチャのクラスである。
論文 参考訳(メタデータ) (2024-07-03T19:43:12Z) - Masked Completion via Structured Diffusion with White-Box Transformers [23.07048591213815]
大規模教師なし表現学習に適用可能なホワイトボックス設計パラダイムの最初のインスタンス化を提供する。
我々は、拡散、圧縮、および(マスクされた)完了の基本的な接続を利用して、ディープトランスフォーマーのようなマスク付きオートエンコーダアーキテクチャを導出する。
CRATE-MAEは、大規模データセット上で非常に有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-03T04:23:01Z) - Exploring and Exploiting Multi-Granularity Representations for Machine
Reading Comprehension [13.191437539419681]
適応的双方向注意カプセルネットワーク(ABA-Net)という新しい手法を提案する。
ABA-Netは、異なるレベルのソース表現を予測子に適応的に活用する。
私たちはSQuAD 1.0データセットに新しい最先端パフォーマンスを設定しました。
論文 参考訳(メタデータ) (2022-08-18T10:14:32Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。