論文の概要: Efficient Multi-Purpose Cross-Attention Based Image Alignment Block for
Edge Devices
- arxiv url: http://arxiv.org/abs/2206.00291v1
- Date: Wed, 1 Jun 2022 07:51:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 00:35:19.804998
- Title: Efficient Multi-Purpose Cross-Attention Based Image Alignment Block for
Edge Devices
- Title(参考訳): エッジデバイスのための多目的クロスアテンションに基づく画像アライメントブロック
- Authors: Bahri Batuhan Bilecen, Alparslan Fisne, Mustafa Ayazoglu
- Abstract要約: 画像アライメントは、画像登録としても知られ、多くのコンピュータビジョン問題で用いられる重要なブロックである。
本稿では,エッジデバイス内で動作するのに適した,効率的な多目的画像アライメントブロック(XABA)を提案する。
XABAモデルは、30Wの消費電力を持つNVIDIA Jetson Xavier上で20FPS以上のパフォーマンスを実行するためのリアルタイム要求を実現する。
- 参考スコア(独自算出の注目度): 6.445605125467574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image alignment, also known as image registration, is a critical block used
in many computer vision problems. One of the key factors in alignment is
efficiency, as inefficient aligners can cause significant overhead to the
overall problem. In the literature, there are some blocks that appear to do the
alignment operation, although most do not focus on efficiency. Therefore, an
image alignment block which can both work in time and/or space and can work on
edge devices would be beneficial for almost all networks dealing with multiple
images. Given its wide usage and importance, we propose an efficient,
cross-attention-based, multi-purpose image alignment block (XABA) suitable to
work within edge devices. Using cross-attention, we exploit the relationships
between features extracted from images. To make cross-attention feasible for
real-time image alignment problems and handle large motions, we provide a
pyramidal block based cross-attention scheme. This also captures local
relationships besides reducing memory requirements and number of operations.
Efficient XABA models achieve real-time requirements of running above 20 FPS
performance on NVIDIA Jetson Xavier with 30W power consumption compared to
other powerful computers. Used as a sub-block in a larger network, XABA also
improves multi-image super-resolution network performance in comparison to
other alignment methods.
- Abstract(参考訳): 画像アライメントは、画像登録としても知られ、多くのコンピュータビジョン問題で用いられる重要なブロックである。
非効率な調整器は全体の問題に大きなオーバーヘッドを引き起こす可能性があるため、アライメントの重要な要因の1つは効率である。
文献では、アライメント操作を行うように見えるブロックがいくつか存在するが、そのほとんどは効率を重視していない。
したがって、時間と空間の両方で動作し、エッジデバイスで動作可能な画像アライメントブロックは、複数の画像を扱うほぼすべてのネットワークにとって有益である。
広汎な使用感と重要性から,エッジデバイス内で動作するのに適した,効率的な多目的画像アライメントブロック(XABA)を提案する。
クロスアテンションを用いて,画像から抽出した特徴間の関係を利用する。
リアルタイム画像アライメント問題に対してクロスアテンションを実現するために,ピラミッドブロックを用いたクロスアテンション方式を提案する。
また、メモリ要件と操作回数の削減に加えて、ローカルな関係もキャプチャする。
効率的なXABAモデルは、他の強力なコンピュータと比較して30Wの消費電力を持つNVIDIA Jetson Xavier上で20FPS以上のパフォーマンスを実行するためのリアルタイム要求を実現する。
大規模ネットワークのサブブロックとして使用されるXABAは、他のアライメント手法と比較してマルチイメージの超解像ネットワーク性能も向上する。
関連論文リスト
- Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - Parallel Cross Strip Attention Network for Single Image Dehazing [15.246376325081973]
単一画像デハジングは、ぼんやりとしたイメージを復元し、透明で高品質なビジュアルを作り出すことを目的としている。
伝統的な畳み込みモデルは、受容野のサイズが限られているため、長距離依存に苦しむ。
マルチスケール戦略を用いた並列Stripe Cross Attention (PCSA) に基づく新しいデハージングネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-09T14:50:07Z) - Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models [22.702352459581434]
サーペントは高解像度画像復元のための効率的なアーキテクチャである。
本稿では,Serpentが最先端技術に匹敵する再現性が得られることを示す。
論文 参考訳(メタデータ) (2024-03-26T17:43:15Z) - Memory-Constrained Semantic Segmentation for Ultra-High Resolution UAV
Imagery [35.96063342025938]
本稿では,超高解像度UAV画像の高効率・高効率セグメンテーションを実現するための複雑な課題について検討する。
本稿では、ローカルパッチ以外のコンテキストにアクセスすることなく、ローカル推論のためのGPUメモリ効率が高く効果的なフレームワークを提案する。
基礎となる高解像度情報の潜在的な意味バイアスを補正するために,効率的なメモリベースインタラクション方式を提案する。
論文 参考訳(メタデータ) (2023-10-07T07:44:59Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Iterative Patch Selection for High-Resolution Image Recognition [10.847032625429717]
本稿では,メモリ使用量を入力サイズから分離する単純な手法であるIPSを提案する。
IPSは、最も健全なパッチだけを選択してこれを達成し、画像認識のためのグローバルな表現に集約する。
本手法は,最小のアクセラレータメモリを使用しながら,異なる領域,トレーニング体制,画像サイズにまたがって高い性能を示し,幅広い適用性を有する。
論文 参考訳(メタデータ) (2022-10-24T07:55:57Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Adaptive Local Implicit Image Function for Arbitrary-scale
Super-resolution [61.95533972380704]
局所暗黙画像関数(LIIF)は、対応する座標を入力として、画素値が拡張される連続関数として画像を表す。
LIIFは任意のスケールの超解像タスクに適用でき、その結果、様々なアップスケーリング要因に対して単一の効率的かつ効率的なモデルが得られる。
この問題を軽減するために,新しい適応型局所像関数(A-LIIF)を提案する。
論文 参考訳(メタデータ) (2022-08-07T11:23:23Z) - SIN:Superpixel Interpolation Network [9.046310874823002]
従来のアルゴリズムとディープラーニングベースのアルゴリズムは、スーパーピクセルセグメンテーションにおける2つの主要なストリームである。
本稿では,エンド・ツー・エンド方式で下流タスクと統合可能な深層学習に基づくスーパーピクセルセグメンテーションアルゴリズムSINを提案する。
論文 参考訳(メタデータ) (2021-10-17T02:21:11Z) - Asymmetric CNN for image super-resolution [102.96131810686231]
深層畳み込みニューラルネットワーク(CNN)は、過去5年間で低レベルビジョンに広く適用されています。
画像超解像のための非対称ブロック(AB)、mem?ory拡張ブロック(MEB)、高周波数特徴強調ブロック(HFFEB)からなる非対称CNN(ACNet)を提案する。
我々のACNetは、ブラインドノイズの単一画像超解像(SISR)、ブラインドSISR、ブラインドSISRを効果的に処理できる。
論文 参考訳(メタデータ) (2021-03-25T07:10:46Z) - Searching for Controllable Image Restoration Networks [57.23583915884236]
既存の方法は各出力毎にネットワーク全体を通して別々の推論を必要とする。
本稿では,複数の画像効果を効率的に生成できるニューラルアーキテクチャ探索手法に基づく新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-12-21T10:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。