Fugu-MT 論文翻訳(概要): Beyond Grids: Exploring Elastic Input Sampling for Vision Transformers

論文の概要: Beyond Grids: Exploring Elastic Input Sampling for Vision Transformers

arxiv url: http://arxiv.org/abs/2309.13353v2
Date: Tue, 26 Nov 2024 17:28:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:49.000251
Title: Beyond Grids: Exploring Elastic Input Sampling for Vision Transformers
Title（参考訳）: Beyond Grids: ビジョントランスフォーマーのためのElastic Input Smplingの探索
Authors: Adam Pardyl, Grzegorz Kurzejamski, Jan Olszewski, Tomasz Trzciński, Bartosz Zieliński,
Abstract要約: 視覚変換器は様々なコンピュータビジョンタスクに優れてきたが、主にパッチの固定サイズのグリッドを使った厳密な入力サンプリングに依存している。本稿では,視覚変換器の入力弾性の概念を定式化し,この弾性を測定するための評価プロトコルを提案する。
参考スコア（独自算出の注目度）: 0.11650821883155184
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision transformers have excelled in various computer vision tasks but mostly rely on rigid input sampling using a fixed-size grid of patches. It limits their applicability in real-world problems, such as active visual exploration, where patches have various scales and positions. Our paper addresses this limitation by formalizing the concept of input elasticity for vision transformers and introducing an evaluation protocol for measuring this elasticity. Moreover, we propose modifications to the transformer architecture and training regime, which increase its elasticity. Through extensive experimentation, we spotlight opportunities and challenges associated with such architecture.
Abstract（参考訳）: 視覚変換器は様々なコンピュータビジョンタスクに優れてきたが、主にパッチの固定サイズのグリッドを使った厳密な入力サンプリングに依存している。パッチがさまざまなスケールと位置を持つアクティブな視覚探索など、現実世界の問題における適用性を制限する。本稿では、視覚変換器の入力弾性の概念を定式化し、この弾性を測定するための評価プロトコルを導入することにより、この制限に対処する。さらに, トランスアーキテクチャやトレーニング体制の変更も提案し, 弾力性の向上を図っている。大規模な実験を通じて、このようなアーキテクチャに関連する機会と課題に注目する。

関連論文リスト

Image Recognition with Online Lightweight Vision Transformer: A Survey [31.281613961724165]
本稿では、画像認識のための軽量な視覚変換器を作成するための様々なオンライン戦略について調査する。我々は、ImageNet-1Kベンチマークにおいて、各トピックに関する関連する探索を評価した。視覚変換器の軽量化における今後の研究の方向性と今後の課題を提案する。
論文参考訳（メタデータ） (2025-05-06T02:07:54Z)
AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文参考訳（メタデータ） (2024-07-17T18:38:48Z)
DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。 DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文参考訳（メタデータ） (2023-09-04T08:26:47Z)
Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。 QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文参考訳（メタデータ） (2023-03-27T11:13:50Z)
Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文参考訳（メタデータ） (2023-01-20T16:45:34Z)
Dynamic Grained Encoder for Vision Transformers [150.02797954201424]
本稿では,自然画像の空間的冗長性を生かした視覚変換器のスパースクエリを提案する。本研究では,各空間領域に適切なクエリ数を適応的に割り当てる動的変換器を提案する。我々のエンコーダにより、最先端のビジョン変換器は、画像分類において同等の性能を維持しながら、計算複雑性を40%から60%削減できる。
論文参考訳（メタデータ） (2023-01-10T07:55:29Z)
What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。 Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。 TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文参考訳（メタデータ） (2022-12-21T15:51:43Z)
Vision Transformers for Action Recognition: A Survey [41.69370782177517]
コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。最近の技術は、多数のビデオ関連タスクを解決するために、画像領域を超えたトランスフォーマーの有効性を証明している。人間の行動認識は、広く応用されているため、研究コミュニティから特別に注目を集めている。
論文参考訳（メタデータ） (2022-09-13T02:57:05Z)
Towards Lightweight Transformer via Group-wise Transformation for Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。 LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文参考訳（メタデータ） (2022-04-16T11:30:26Z)
Patch Similarity Aware Data-Free Quantization for Vision Transformers [2.954890575035673]
Patch similarity Aware data-free Quantization framework for Vision Transformersを提案する。本研究では,ガウス雑音と実画像の処理において,自己アテンションモジュールの特性を解析し,一般的な相違点(パッチ類似点)を明らかにする。 PSAQ-ViTの有効性を検証するため,様々なベンチマークで実験およびアブレーション実験を行った。
論文参考訳（メタデータ） (2022-03-04T11:47:20Z)
Stochastic Layers in Vision Transformers [85.38733795180497]
視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
論文参考訳（メタデータ） (2021-12-30T16:07:59Z)
AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文参考訳（メタデータ） (2021-11-30T18:57:02Z)
Gophormer: Ego-Graph Transformer for Node Classification [27.491500255498845]
本稿では,egoグラフにフルグラフの代わりにトランスフォーマーを適用した新しいGophormerモデルを提案する。具体的には、変圧器の入力としてエゴグラフをサンプリングするためにNode2Seqモジュールが提案されており、スケーラビリティの課題が軽減されている。エゴグラフサンプリングで導入された不確実性に対処するために,一貫性の正則化とマルチサンプル推論戦略を提案する。
論文参考訳（メタデータ） (2021-10-25T16:43:32Z)
Understanding and Overcoming the Challenges of Efficient Transformer Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文参考訳（メタデータ） (2021-09-27T10:57:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。