論文の概要: Rotary Position Embedding for Vision Transformer
- arxiv url: http://arxiv.org/abs/2403.13298v2
- Date: Tue, 16 Jul 2024 04:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 21:18:43.104780
- Title: Rotary Position Embedding for Vision Transformer
- Title(参考訳): 視覚変換器の回転位置埋め込み
- Authors: Byeongho Heo, Song Park, Dongyoon Han, Sangdoo Yun,
- Abstract要約: 本研究では、視覚変換器(ViT)に適用した場合の回転位置埋め込み(RoPE)の包括的解析を提供する。
RoPEは印象的な補間性能、すなわち推論時の画像解像度を増大させながら精度を維持する。
最終的にImageNet-1k、COCO検出、ADE-20kセグメンテーションのパフォーマンスが向上した。
- 参考スコア(独自算出の注目度): 44.27871591624888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rotary Position Embedding (RoPE) performs remarkably on language models, especially for length extrapolation of Transformers. However, the impacts of RoPE on computer vision domains have been underexplored, even though RoPE appears capable of enhancing Vision Transformer (ViT) performance in a way similar to the language domain. This study provides a comprehensive analysis of RoPE when applied to ViTs, utilizing practical implementations of RoPE for 2D vision data. The analysis reveals that RoPE demonstrates impressive extrapolation performance, i.e., maintaining precision while increasing image resolution at inference. It eventually leads to performance improvement for ImageNet-1k, COCO detection, and ADE-20k segmentation. We believe this study provides thorough guidelines to apply RoPE into ViT, promising improved backbone performance with minimal extra computational overhead. Our code and pre-trained models are available at https://github.com/naver-ai/rope-vit
- Abstract(参考訳): RoPE(Rotary Position Embedding)は、特にトランスフォーマーの長さ外挿において、言語モデルにおいて顕著に機能する。
しかし、RoPEは視覚変換器(ViT)の性能を言語ドメインと似た方法で向上させることができるにもかかわらず、コンピュータビジョン領域に対するRoPEの影響は過小評価されている。
本研究では,2次元視覚データに対するRoPEの実践的実装を利用して,VTに適用したRoPEの包括的解析を行う。
解析の結果、RoPEは印象的な外挿性能、すなわち推論時の画像分解能を高めながら精度を維持できることが判明した。
最終的にImageNet-1k、COCO検出、ADE-20kセグメンテーションのパフォーマンスが向上した。
この研究は、RoPEをViTに適用するための徹底的なガイドラインを提供し、計算オーバーヘッドを最小限に抑えたバックボーン性能の向上を約束する。
私たちのコードと事前訓練済みモデルはhttps://github.com/naver-ai/rope-vitで利用可能です。
関連論文リスト
- Round and Round We Go! What makes Rotary Positional Encodings useful? [15.543752938828831]
メカニカルレベルでの RoPE の使用方法を理解するため, トレーニングされた Gemma 7B モデルの内部構造について検討した。
Gemma は,RoPE を用いて高周波数を利用してロバストな「位置的」アテンションパターンを構築することを学ぶ。
強調された問題を修正し、性能を向上するRoPEの修正を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:07:01Z) - Optimizing ROI Benefits Vehicle ReID in ITS [4.599517515407009]
車両再識別(英: Vehicle re-identification、ReID)とは、監視システムにおいて、異なるカメラや視点で同じ車両と一致するコンピュータビジョンタスクである。
本研究では,検出信頼度スコアによって導かれる最適な車両検出領域が,特徴マッチングとReIDタスクを向上できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-07-13T18:15:06Z) - RoScenes: A Large-scale Multi-view 3D Dataset for Roadside Perception [98.76525636842177]
RoScenesは、最大規模のマルチビューロードサイド認識データセットである。
私たちのデータセットは、驚くべき21.13Mの3Dアノテーションを64,000$m2$で達成しています。
論文 参考訳(メタデータ) (2024-05-16T08:06:52Z) - Semantic-Aware Transformation-Invariant RoI Align [26.823382081015055]
2段検出器は1段検出器よりも高い検出精度を持つことが多い。
SRA(Semantic RoI Align)と呼ばれる新しいRoI特徴抽出器を提案する。
SRAは2段検出器の様々な変換の下で不変のRoI特徴を抽出することができる。
論文 参考訳(メタデータ) (2023-12-15T08:50:00Z) - Scaling Laws of RoPE-based Extrapolation [103.33995311915864]
基本値と外挿性能の関係を記述するために,RoPEに基づく外挿法におけるtextbftextitScaling法則を提案する。
LLaMA2 7Bと13Bで最大100万の文脈長を16Kのトレーニング長で達成した。
論文 参考訳(メタデータ) (2023-10-08T15:50:36Z) - Lightweight Vision Transformer with Bidirectional Interaction [63.65115590184169]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Rethinking and Improving Relative Position Encoding for Vision
Transformer [61.559777439200744]
リレーショナル位置符号化(RPE)は、トランスフォーマーが入力トークンのシーケンス順序をキャプチャする上で重要である。
画像RPE(iRPE)と呼ばれる2次元画像専用の新しい相対的位置符号化法を提案する。
論文 参考訳(メタデータ) (2021-07-29T17:55:10Z) - Conformer-based End-to-end Speech Recognition With Rotary Position
Embedding [11.428057887454008]
畳み込み強化変圧器(コンフォーマ)に回転位置埋め込み(RoPE)を導入する。
RoPEは、絶対位置情報を回転行列によって入力シーケンスにエンコードし、自然に明示的な相対位置情報を自己保持モジュールに組み込む。
提案モデルでは,LbriSpeechコーパスの試験クリーンおよびテスト他のセットに対して,コンバータの単語誤り率を8.70%,コンバータの7.27%削減する。
論文 参考訳(メタデータ) (2021-07-13T08:07:22Z) - RoFormer: Enhanced Transformer with Rotary Position Embedding [9.01819510933327]
位置情報を効果的に活用するためのRotary Position Embedding(RoPE)という新しい手法を提案する。
RoPEは絶対位置を回転行列でエンコードし、一方、自己アテンションの定式化に明示的な相対位置依存性を組み込む。
様々な長文分類ベンチマークデータセットを用いて、回転位置埋め込み(RoFormer)と呼ばれる拡張変換器の評価を行った。
論文 参考訳(メタデータ) (2021-04-20T09:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。