論文の概要: Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
- arxiv url: http://arxiv.org/abs/2510.10060v1
- Date: Sat, 11 Oct 2025 06:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.758425
- Title: Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
- Title(参考訳): トランスリューション:適応的・相対的モデリングのための自己意識と畳み込みの統合
- Authors: Hehe Fan, Yi Yang, Mohan Kankanhalli, Fei Wu,
- Abstract要約: 本稿では、自己認識の適応的識別能力と、畳み込みの相対的符号化能力を一体化する操作であるTranslutionを紹介する。
コンピュータビジョンと自然言語処理タスクの実験から、Translutionは自己意図よりも精度が高いことが示されている。
- 参考スコア(独自算出の注目度): 34.84084078479298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When modeling a given type of data, we consider it to involve two key aspects: 1) identifying relevant elements (e.g., image pixels or textual words) to a central element, as in a convolutional receptive field, or to a query element, as in self-attention, and 2) encoding these tokens effectively. Self-attention can adaptively identify these elements but relies on absolute positional embedding for structural representation learning. In contrast, convolution encodes elements in a relative manner, yet their fixed kernel size limits their ability to adaptively select the relevant elements. In this paper, we introduce Translution, an operation that unifies the adaptive identification capability of self-attention and the relative encoding advantage of convolution. However, this integration leads to a substantial increase in the number of parameters, exceeding most currently available computational resources. Therefore, we propose a lightweight variant of Translution, named {\alpha}-Translution. Experiments on computer vision and natural language processing tasks show that Translution (including {\alpha}-Translution) achieves superior accuracy compared to self-attention. The code is available at https://github.com/hehefan/Translution.
- Abstract(参考訳): 特定のタイプのデータをモデリングする際には、2つの重要な側面があると考えています。
1) 中心的要素、畳み込み受容領域、またはクエリ要素、自己注意領域などに関連する要素(例えば、画像画素又はテキスト語)を識別すること。
2)これらのトークンを効果的に符号化する。
自己注意はこれらの要素を適応的に識別することができるが、構造的表現学習には絶対的な位置埋め込みに依存する。
対照的に、畳み込みは相対的に要素を符号化するが、固定されたカーネルサイズは関連する要素を適応的に選択する能力を制限する。
本稿では,自己認識の適応的識別能力と,畳み込みの相対的符号化機能を組み合わせたTranslutionを紹介する。
しかし、この統合によりパラメータの数が大幅に増加し、現在利用可能なほとんどの計算資源を超えている。
そこで本稿では,Translution の軽量版である {\alpha}-Translutionを提案する。
コンピュータビジョンと自然言語処理タスクの実験により、トランスリューション(英語版)(alpha}-Translutionを含む)が自己意図よりも優れた精度を達成することが示された。
コードはhttps://github.com/hehefan/Translution.comで公開されている。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。
意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。
意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文 参考訳(メタデータ) (2024-03-26T14:18:43Z) - BiFormer: Vision Transformer with Bi-Level Routing Attention [26.374724782056557]
本稿では,コンテンツ認識を伴う計算のより柔軟なアロケーションを実現するために,バイレベルルーティングによる新しい動的スパースアテンションを提案する。
具体的には、クエリにおいて、無関係なキー値対をまず粗い領域レベルでフィルタリングし、残った候補領域の結合にきめ細かなトークン対注意を適用する。
提案された双方向ルーティングアテンションによって構築され、BiFormerと呼ばれる新しい汎用ビジョントランスフォーマーが提示される。
論文 参考訳(メタデータ) (2023-03-15T17:58:46Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Efficient Transformer based Method for Remote Sensing Image Change
Detection [17.553240434628087]
シーン内のオブジェクトの複雑さのため、高解像度なリモートセンシングcdは依然として困難である。
空間時間領域内のコンテキストを効率的に効果的にモデル化するためのバイテンポラル画像変換器(BiT)を提案する。
BiTベースのモデルは、計算コストとモデルパラメータのわずか3倍のコストで純粋に畳み込みベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-02-27T13:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。