論文の概要: Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows
- arxiv url: http://arxiv.org/abs/2507.18405v1
- Date: Thu, 24 Jul 2025 13:45:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.727113
- Title: Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows
- Title(参考訳): Iwin Transformer:インターリーブWindowsを使った階層型ビジョントランス
- Authors: Simin Huo, Ning Li,
- Abstract要約: 位置埋め込みのない新しい階層型視覚変換器であるIwin Transformerを紹介する。
Iwin Transformerは、革新的なインターリーブウィンドウアテンションと奥行き分離可能な畳み込みによって、低解像度から高解像度まで直接微調整することができる。
Iwin Transformerは画像分類、セマンティックセグメンテーション、ビデオアクション認識などのタスクにおいて強力な競争力を示す。
- 参考スコア(独自算出の注目度): 1.6893365456432206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Iwin Transformer, a novel position-embedding-free hierarchical vision transformer, which can be fine-tuned directly from low to high resolution, through the collaboration of innovative interleaved window attention and depthwise separable convolution. This approach uses attention to connect distant tokens and applies convolution to link neighboring tokens, enabling global information exchange within a single module, overcoming Swin Transformer's limitation of requiring two consecutive blocks to approximate global attention. Extensive experiments on visual benchmarks demonstrate that Iwin Transformer exhibits strong competitiveness in tasks such as image classification (87.4 top-1 accuracy on ImageNet-1K), semantic segmentation and video action recognition. We also validate the effectiveness of the core component in Iwin as a standalone module that can seamlessly replace the self-attention module in class-conditional image generation. The concepts and methods introduced by the Iwin Transformer have the potential to inspire future research, like Iwin 3D Attention in video generation. The code and models are available at https://github.com/cominder/Iwin-Transformer.
- Abstract(参考訳): 我々は,新しい位置埋め込みのない階層型視覚変換器であるIwin Transformerを紹介した。
このアプローチは、遠く離れたトークンを接続するために注意を払い、隣接するトークンをリンクするために畳み込みを適用し、単一のモジュール内でグローバルな情報交換を可能にし、Swin Transformerがグローバルな注意を近似するために2つの連続ブロックを必要とするという制限を克服する。
ビジュアルベンチマークに関する大規模な実験により、画像分類(ImageNet-1Kの87.4トップ-1精度)、セマンティックセグメンテーション、ビデオアクション認識などのタスクにおいて、Iwin Transformerが強い競争力を示すことが示された。
また,Iwinのコアコンポーネントを,クラス条件の画像生成における自己認識モジュールをシームレスに置き換えるスタンドアロンモジュールとしての有効性を検証した。
Iwin Transformerが導入したコンセプトと手法は、ビデオ生成におけるIwin 3D Attentionのような将来の研究を刺激する可能性がある。
コードとモデルはhttps://github.com/cominder/Iwin-Transformer.comで公開されている。
関連論文リスト
- DuoFormer: Leveraging Hierarchical Representations by Local and Global Attention Vision Transformer [1.456352735394398]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化プロセスを通じてトランスフォーマー入力に適応し、継承されたマルチスケールの帰納バイアスを保存する。
論文 参考訳(メタデータ) (2025-06-15T22:42:57Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Degenerate Swin to Win: Plain Window-based Transformer without
Sophisticated Operations [36.57766081271396]
Vision Transformerは、長い範囲の依存関係を特徴付けることができるより大きな受容フィールドを持つ。
効率を上げるために、ウィンドウベースのVision Transformerが登場した。
Swin Transformerのキーデザイン要素であるシフトウインドウパーティショニングの必要性を確認する。
論文 参考訳(メタデータ) (2022-11-25T17:36:20Z) - Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition [158.15602882426379]
本稿では,視覚認識のための最先端の手法を設計しようとはしないが,空間的特徴を符号化するために畳み込みを利用するより効率的な方法について検討する。
近年の畳み込みニューラルネットワーク(ConvNet)と視覚変換器(Vision Transformers)の設計原理を比較することにより,畳み込み変調操作を活用することで自己意識をシンプルにすることを提案する。
論文 参考訳(メタデータ) (2022-11-22T01:39:45Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。