論文の概要: Hadamard Attention Recurrent Transformer: A Strong Baseline for Stereo Matching Transformer
- arxiv url: http://arxiv.org/abs/2501.01023v1
- Date: Thu, 02 Jan 2025 02:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:18.458587
- Title: Hadamard Attention Recurrent Transformer: A Strong Baseline for Stereo Matching Transformer
- Title(参考訳): Hadamard Attention Recurrent Transformer: Stereo Matching Transformerの強力なベースライン
- Authors: Ziyang Chen, Yongjun Zhang, Wenting Li, Bingshu Wang, Yabo Wu, Yong Zhao, C. L. Philip Chen,
- Abstract要約: textbfHadamard textbfAttention textbfRecurrent Stereo textbfTransformer (HART)について述べる。
より高速な推論のために、線形計算複雑性を実現するための注意機構のためのアダマール積のパラダイムを提案する。
Dense Attention Kernel (DAK) を設計し、関連する機能応答と無関係な機能応答の違いを増幅する。
我々は,大小のカーネル畳み込みのインターリーブを通じて,グローバル情報とローカル情報の両方をキャプチャするMKOIを提案する。
- 参考スコア(独自算出の注目度): 54.97718043685824
- License:
- Abstract: In light of the advancements in transformer technology, extant research posits the construction of stereo transformers as a potential solution to the binocular stereo matching challenge. However, constrained by the low-rank bottleneck and quadratic complexity of attention mechanisms, stereo transformers still fail to demonstrate sufficient nonlinear expressiveness within a reasonable inference time. The lack of focus on key homonymous points renders the representations of such methods vulnerable to challenging conditions, including reflections and weak textures. Furthermore, a slow computing speed is not conducive to the application. To overcome these difficulties, we present the \textbf{H}adamard \textbf{A}ttention \textbf{R}ecurrent Stereo \textbf{T}ransformer (HART) that incorporates the following components: 1) For faster inference, we present a Hadamard product paradigm for the attention mechanism, achieving linear computational complexity. 2) We designed a Dense Attention Kernel (DAK) to amplify the differences between relevant and irrelevant feature responses. This allows HART to focus on important details. DAK also converts zero elements to non-zero elements to mitigate the reduced expressiveness caused by the low-rank bottleneck. 3) To compensate for the spatial and channel interaction missing in the Hadamard product, we propose MKOI to capture both global and local information through the interleaving of large and small kernel convolutions. Experimental results demonstrate the effectiveness of our HART. In reflective area, HART ranked \textbf{1st} on the KITTI 2012 benchmark among all published methods at the time of submission. Code is available at \url{https://github.com/ZYangChen/HART}.
- Abstract(参考訳): トランス技術の進歩を踏まえて、既存の研究は、両眼のステレオマッチングチャレンジに対する潜在的な解決策として、ステレオトランスの構築を実証している。
しかし、低ランクボトルネックと注意機構の二次的複雑さに制約されたステレオトランスフォーマーは、合理的な推論時間内に十分な非線形表現性を示せなかった。
主要な同名点に焦点をあてることの欠如は、反射や弱いテクスチャを含む困難な条件に対して、そのような方法の表現を脆弱なものにしている。
さらに、遅い計算速度はアプリケーションには影響しない。
これらの困難を克服するために、以下のコンポーネントを組み込んだ \textbf{H}adamard \textbf{A}ttention \textbf{R}ecurrent Stereo \textbf{T}ransformer (HART) を示す。
1) より高速な推論のために, 線形計算複雑性を実現するためのアダマール積パラダイムを提案する。
2) Dense Attention Kernel (DAK) を設計し, 関連する機能応答と無関係機能応答の違いを増幅した。
これによりHARTは重要な詳細に集中することができる。
DAKはまた、ゼロ要素を非ゼロ要素に変換し、低ランクのボトルネックによって引き起こされる表現性を緩和する。
3) アダマール積の空間的相互作用とチャネル的相互作用を補うため,大小のカーネル畳み込みのインターリーブによるグローバル情報とローカル情報の両方を捕捉するMKOIを提案する。
実験の結果,HARTの有効性が示された。
反射領域において、HARTは、提出された時点でのすべてのメソッドの中で、KITTI 2012ベンチマークで \textbf{1st} をランク付けした。
コードは \url{https://github.com/ZYangChen/HART} で入手できる。
関連論文リスト
- Boosting ViT-based MRI Reconstruction from the Perspectives of Frequency Modulation, Spatial Purification, and Scale Diversification [6.341065683872316]
ViTは、画像の高周波成分を捉えるのに苦労し、局所的なテクスチャやエッジ情報を検出する能力を制限する。
コンテンツ中の関連トークンと非関連トークンのうち、MSA(Multi-head self-attention)を計算する。
ViTsのフィードフォワードネットワークは、画像復元に重要なマルチスケール情報をモデル化することができない。
論文 参考訳(メタデータ) (2024-12-14T10:03:08Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - DiTFastAttn: Attention Compression for Diffusion Transformer Models [26.095923502799664]
拡散変換器(DiT)は画像および映像生成において優れるが、自己注意演算子による計算上の課題に直面している。
本稿では,DiTの計算ボトルネックを軽減するための後処理圧縮手法であるDiTFastAttnを提案する。
その結果,画像生成ではFLOPの最大76%を削減し,高分解能(2k x 2k)世代で最大1.8倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-12T18:00:08Z) - Convolution and Attention Mixer for Synthetic Aperture Radar Image
Change Detection [41.38587746899477]
合成開口レーダ(SAR)画像変化検出は重要な課題であり,リモートセンシングコミュニティで注目されている。
既存のSAR変化検出法は主に畳み込みニューラルネットワーク(CNN)に基づいている
グローバルアテンションを取り入れたコンボリューション・アテンション・ミキサー(CAMixer)を提案する。
論文 参考訳(メタデータ) (2023-09-21T12:28:23Z) - Reciprocal Attention Mixing Transformer for Lightweight Image Restoration [6.3159191692241095]
本稿では,RAMiT(Reciprocal Attention Mixing Transformer)という軽量画像復元ネットワークを提案する。
二次元(空間とチャネル)の自己アテンションを、異なる数のマルチヘッドと並行して使用する。
超高分解能、カラーデノイング、グレースケールデノナイジング、低照度向上、デラリニングなど、複数の軽量IRタスクにおける最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-19T06:55:04Z) - Spectral Enhanced Rectangle Transformer for Hyperspectral Image
Denoising [64.11157141177208]
ハイパースペクトル画像の空間的およびスペクトル的相関をモデル化するスペクトル拡張矩形変換器を提案する。
前者に対しては、長方形自己アテンションを水平および垂直に利用し、空間領域における非局所的類似性を捉える。
後者のために,空間スペクトル立方体の大域的低ランク特性を抽出し,雑音を抑制するスペクトル拡張モジュールを設計する。
論文 参考訳(メタデータ) (2023-04-03T09:42:13Z) - Hyperbolic Cosine Transformer for LiDAR 3D Object Detection [6.2216654973540795]
我々は,LiDAR点雲から3次元物体を検出するための2段階双曲型コサイントランス (ChTR3D) を提案する。
提案したChTR3Dは、線形複雑性におけるコッシュアテンションを適用して、点間のリッチな文脈関係を符号化することで、提案を洗練する。
広く使用されているKITTIデータセットの実験では、バニラアテンションと比較して、コッシュアテンションは競合性能による推論速度を大幅に改善することが示された。
論文 参考訳(メタデータ) (2022-11-10T13:54:49Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。