論文の概要: Exploring Compositionality in Vision Transformers using Wavelet Representations
- arxiv url: http://arxiv.org/abs/2512.24438v1
- Date: Tue, 30 Dec 2025 19:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.475818
- Title: Exploring Compositionality in Vision Transformers using Wavelet Representations
- Title(参考訳): ウェーブレット表現を用いた視覚変換器の構成性探索
- Authors: Akshad Shyam Purushottamdas, Pranav K Nayak, Divya Mehul Rajparia, Deekshith Patel, Yashmitha Gogineni, Konda Reddy Mopuri, Sumohana S. Channappayya,
- Abstract要約: 本研究では、視覚変換器(ViT)エンコーダが構成性のレンズを通して学習した表現について検討する。
本稿では,VTエンコーダの合成性をテストするために,表現学習における構成性の測定に関する先行研究に類似したフレームワークを提案する。
合成表現が元の画像表現を再現する能力を調べることにより、表現空間において構成性が尊重される程度を実証的に検証する。
- 参考スコア(独自算出の注目度): 10.885654303409138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While insights into the workings of the transformer model have largely emerged by analysing their behaviour on language tasks, this work investigates the representations learnt by the Vision Transformer (ViT) encoder through the lens of compositionality. We introduce a framework, analogous to prior work on measuring compositionality in representation learning, to test for compositionality in the ViT encoder. Crucial to drawing this analogy is the Discrete Wavelet Transform (DWT), which is a simple yet effective tool for obtaining input-dependent primitives in the vision setting. By examining the ability of composed representations to reproduce original image representations, we empirically test the extent to which compositionality is respected in the representation space. Our findings show that primitives from a one-level DWT decomposition produce encoder representations that approximately compose in latent space, offering a new perspective on how ViTs structure information.
- Abstract(参考訳): 変圧器モデルの動作に関する洞察は、言語タスクの振る舞いを分析することによって大きく発展してきたが、この研究は、視覚変換器(ViT)エンコーダ(英語版)が構成性のレンズを通して学習した表現について研究している。
本稿では,VTエンコーダの合成性をテストするために,表現学習における構成性の測定に関する先行研究に類似したフレームワークを提案する。
このアナログを描く上で重要なのが離散ウェーブレット変換(DWT)であり、視覚設定において入力依存プリミティブを取得するのにシンプルだが効果的なツールである。
合成表現が元の画像表現を再現する能力を調べることにより、表現空間において構成性が尊重される程度を実証的に検証する。
以上の結果から, 1レベルDWT分解のプリミティブは, ほぼ潜在空間で構成されるエンコーダ表現を生成し, 情報構造に関する新たな視点を提供する。
関連論文リスト
- Your ViT is Secretly an Image Segmentation Model [50.71238842539735]
Vision Transformer (ViT) は、様々なコンピュータビジョンタスクにおいて、顕著なパフォーマンスとスケーラビリティを示している。
タスク固有のコンポーネントによって導入された帰納バイアスは、代わりにViT自身で学習できることを示す。
画像セグメンテーションを行うためにプレーンな ViT アーキテクチャを再利用した Mask Transformer (EoMT) を導入する。
論文 参考訳(メタデータ) (2025-03-24T19:56:02Z) - Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP [53.18562650350898]
私たちは、CLIP以外のViTにおける様々なコンポーネントの役割を識別できる一般的なフレームワークを紹介します。
また,特定の特徴について重要な要素をランク付けするための新しいスコアリング機能も導入する。
フレームワークをさまざまなViT変種に適用することで、特定の画像機能に関するさまざまなコンポーネントの役割について、洞察を得ることができます。
論文 参考訳(メタデータ) (2024-06-03T17:58:43Z) - Contextual Vision Transformers for Robust Representation Learning [10.459236278849938]
本研究ではContextual Vision Transformer(ContextViT)を導入し,複数のグループにまたがる潜在要因の変化を経験するデータセットに対して,ロバストな画像表現を生成する。
ContextViTには、グループ固有の情報をカプセル化するための追加のコンテキストトークンが含まれている。
分布シフトの中で,ContextViTは安定な画像デファチュアライゼーションの学習に優れることを示す。
論文 参考訳(メタデータ) (2023-05-30T20:31:26Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Splicing ViT Features for Semantic Appearance Transfer [10.295754142142686]
本稿では,ある自然画像の視覚的外観を別の自然画像に意味的に伝達する手法を提案する。
具体的には、ソース構造画像中のオブジェクトを、ターゲットの外観画像中のそれらの意味的関連オブジェクトの視覚的外観で“ペイント”する画像を生成する。
論文 参考訳(メタデータ) (2022-01-02T22:00:34Z) - E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning [31.622393984150314]
本稿では,V+L理解と生成のための視覚言語事前学習モデルを提案する。
視覚表現と画像とテキスト間のセマンティックアライメントを共同で学習するための統合トランスフォーマーフレームワークを構築した。
論文 参考訳(メタデータ) (2021-06-03T12:50:26Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。