Fugu-MT 論文翻訳(概要): SWAT: Spatial Structure Within and Among Tokens

論文の概要: SWAT: Spatial Structure Within and Among Tokens

arxiv url: http://arxiv.org/abs/2111.13677v1
Date: Fri, 26 Nov 2021 18:59:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-29 17:23:07.148540
Title: SWAT: Spatial Structure Within and Among Tokens
Title（参考訳）: swat:トークン内とトークン間の空間構造
Authors: Kumara Kahatapitiya and Michael S. Ryoo
Abstract要約: 空間構造がトークン化で保存されている場合、モデルは顕著な利得が得られると我々は論じる。本研究では,(1)構造認識のトークン化と(2)構造認識のミキシングという2つの重要なコントリビューションを提案する。
参考スコア（独自算出の注目度）: 45.03545172714305
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modeling visual data as tokens (i.e., image patches), and applying attention mechanisms or feed-forward networks on top of them has shown to be highly effective in recent years. The common pipeline in such approaches includes a tokenization method, followed by a set of layers/blocks for information mixing, both within tokens and among tokens. In common practice, image patches are flattened when converted into tokens, discarding the spatial structure within each patch. Next, a module such as multi-head self-attention captures the pairwise relations among the tokens and mixes them. In this paper, we argue that models can have significant gains when spatial structure is preserved in tokenization, and is explicitly used in the mixing stage. We propose two key contributions: (1) Structure-aware Tokenization and, (2) Structure-aware Mixing, both of which can be combined with existing models with minimal effort. We introduce a family of models (SWAT), showing improvements over the likes of DeiT, MLP-Mixer and Swin Transformer, across multiple benchmarks including ImageNet classification and ADE20K segmentation. Our code and models will be released online.
Abstract（参考訳）: 視覚データをトークン(画像パッチ)としてモデル化し、その上に注意機構やフィードフォワードネットワークを適用することで、近年は非常に効果的であることが示されている。このようなアプローチの共通パイプラインはトークン化メソッドを含み、続いてトークン内およびトークン間の情報混合のためのレイヤ/ブロックのセットが続く。一般的には、イメージパッチはトークンに変換されるとフラットになり、各パッチ内の空間構造を捨てる。次に、マルチヘッドセルフアテンションのようなモジュールがトークン間の対関係をキャプチャして混合する。本稿では,空間構造がトークン化で保存されている場合,モデルが大きな利益をもたらす可能性があり,混合段階において明示的に用いられることを論じる。 1) 構造認識トークン化と, (2) 構造認識混合とを組み合わせることで, 既存のモデルと最小限の労力で組み合わせることができる。我々は、ImageNet分類やADE20Kセグメンテーションを含む複数のベンチマークにおいて、DeiT、MLP-Mixer、Swin Transformerなどよりも改善されたモデル群(SWAT)を紹介する。私たちのコードとモデルはオンラインでリリースされます。

関連論文リスト

Hi-SAM: A Hierarchical Structure-Aware Multi-modal Framework for Large-Scale Recommendation [1.0839192829439435]
Hi-SAMは階層構造対応のマルチモーダルフレームワークで、2つの設計がある。幾何学的アライメントによってモダリティを統一し、粗大な戦略によってそれらを定量化する。大規模なソーシャルプラットフォーム上に展開されたHi-SAMは、コアオンラインメトリックの6.55%を達成している。
論文参考訳（メタデータ） (2026-02-12T10:26:15Z)
Towards Implicit Aggregation: Robust Image Representation for Place Recognition in the Transformer Era [60.09990228573728]
いくつかの学習可能なアグリゲーショントークンを導入し、特定のトランスフォーマーブロックの前にパッチトークンにプリコンパイルする。これらのトークンはすべて、固有の自己認識機構を通じて、共同で処理され、世界規模で相互作用する。提案手法は,複数のVPRデータセットにおける最先端の手法よりも効率が高く,MSLSチャレンジリーダーボードで1位にランクインする。
論文参考訳（メタデータ） (2025-11-08T14:35:11Z)
ClustViT: Clustering-based Token Merging for Semantic Segmentation [2.661056455199956]
最近の研究は、画像の複雑さに応じてトークンを動的にマージすることに焦点を当てている。我々は、視覚変換器(ViT)のバックボーンとアドレスセマンティックセグメンテーションを拡張するClustViTを提案する。提案手法は,3つのデータセットに対して最大2.18倍のGFLOPと1.64倍の高速推論を実現する。
論文参考訳（メタデータ） (2025-10-02T12:15:40Z)
Hita: Holistic Tokenizer for Autoregressive Image Generation [56.81871174745175]
自己回帰(AR)画像生成のための新しい画像トークンであるtextitHita を紹介する。学習可能な全体的クエリとローカルパッチトークンを備えた、全体論的から局所的なトークン化スキームを導入している。
論文参考訳（メタデータ） (2025-07-03T06:44:26Z)
Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit [45.18582668677648]
大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
論文参考訳（メタデータ） (2025-06-07T00:51:27Z)
Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models [64.52046218688295]
テキスト・ツー・イメージ(T2I)拡散モデルは、画像生成プロセスのガイドとなるエンコードプロンプトに依存している。我々は,T2Iモデルにおいてパディングトークンが果たす役割の詳細な分析を行う。テキストエンコーディング中、拡散過程中、または効果的に無視される場合、パディングトークンがモデルの出力に影響を与える可能性がある。
論文参考訳（メタデータ） (2025-01-12T08:36:38Z)
ENAT: Rethinking Spatial-temporal Interactions in Token-based Image Synthesis [66.60176118564489]
自動回帰変換器(NAT)は,数ステップで高品質な画像を生成することができることを示す。我々は,NATに固有の重要な相互作用を明示的に促進するNATモデルであるEfficientNAT (ENAT)を提案する。 ENATは特に計算コストを大幅に削減してNATの性能を向上させる。
論文参考訳（メタデータ） (2024-11-11T13:05:39Z)
Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文参考訳（メタデータ） (2024-10-11T23:30:42Z)
Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文参考訳（メタデータ） (2024-07-19T16:11:15Z)
LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文参考訳（メタデータ） (2024-05-16T03:26:06Z)
Rethinking Patch Dependence for Masked Autoencoders [89.02576415930963]
マスク付きオートエンコーダ(MAE)のデコーダにおけるパッチ間の依存関係が表現学習に与える影響について検討する。クロスアテンションマスク付きオートエンコーダ(CrossMAE)の簡易な視覚前訓練フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-25T18:49:57Z)
Learning to Embed Time Series Patches Independently [5.752266579415516]
近年,時系列モデリングは時系列の自己教師型表現学習戦略として注目されている。このようなパッチをキャプチャすることは、時系列表現学習の最適戦略ではないかもしれない、と我々は主張する。本論文では,1)他のパッチを見ることなく各パッチを自動エンコードするシンプルなパッチ再構築タスク,2)個別に各パッチを埋め込むシンプルなパッチワイド再構築タスクを提案する。
論文参考訳（メタデータ） (2023-12-27T06:23:29Z)
Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文参考訳（メタデータ） (2023-12-02T04:29:19Z)
UMIFormer: Mining the Correlations between Similar Tokens for Multi-View 3D Reconstruction [9.874357856580447]
非構造化多重画像(UMIFormer)のためのトランスフォーマネットワークを提案する。これは、切り離されたビュー内エンコーディングのためのトランスフォーマーブロックと、トークンの修正のために設計されたブロックを利用する。様々な分岐から取得した全てのトークンは、固定サイズのコンパクト表現に圧縮される。
論文参考訳（メタデータ） (2023-02-27T17:27:45Z)
PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文参考訳（メタデータ） (2021-08-07T11:30:54Z)
VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文参考訳（メタデータ） (2021-06-21T16:48:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。