論文の概要: Space-Time Attention with Shifted Non-Local Search
- arxiv url: http://arxiv.org/abs/2309.16849v1
- Date: Thu, 28 Sep 2023 20:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 16:16:48.073864
- Title: Space-Time Attention with Shifted Non-Local Search
- Title(参考訳): 移動非局所探索による時空注意
- Authors: Kent Gauen and Stanley Chan
- Abstract要約: 長距離動作の手法は、各クエリ位置からオフセットとして最もよく似たキー座標を予測するために補助ネットワークを使用する。
小さな空間的不正確さは、アテンションモジュールの品質に大きな影響を及ぼした。
本稿では,非局所探索の品質と予測オフセットの範囲を組み合わせた探索戦略を提案する。
- 参考スコア(独自算出の注目度): 1.7676816383911753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficiently computing attention maps for videos is challenging due to the
motion of objects between frames. While a standard non-local search is
high-quality for a window surrounding each query point, the window's small size
cannot accommodate motion. Methods for long-range motion use an auxiliary
network to predict the most similar key coordinates as offsets from each query
location. However, accurately predicting this flow field of offsets remains
challenging, even for large-scale networks. Small spatial inaccuracies
significantly impact the attention module's quality. This paper proposes a
search strategy that combines the quality of a non-local search with the range
of predicted offsets. The method, named Shifted Non-Local Search, executes a
small grid search surrounding the predicted offsets to correct small spatial
errors. Our method's in-place computation consumes 10 times less memory and is
over 3 times faster than previous work. Experimentally, correcting the small
spatial errors improves the video frame alignment quality by over 3 dB PSNR.
Our search upgrades existing space-time attention modules, which improves video
denoising results by 0.30 dB PSNR for a 7.5% increase in overall runtime. We
integrate our space-time attention module into a UNet-like architecture to
achieve state-of-the-art results on video denoising.
- Abstract(参考訳): ビデオのアテンションマップの効率的な計算は、フレーム間の物体の動きによって困難である。
標準の非ローカル検索は、各クエリポイントを囲むウィンドウでは高品質であるが、ウィンドウの小さなサイズは動きを許容できない。
長距離動作の手法は、各クエリ位置からオフセットとして最もよく似たキー座標を予測する補助ネットワークを使用する。
しかし、大規模ネットワークにおいても、オフセットのフローフィールドを正確に予測することは困難である。
小さい空間的不正確さはアテンションモジュールの品質に大きく影響する。
本稿では,非局所探索の品質と予測オフセットの範囲を組み合わせた探索戦略を提案する。
この手法はShifted Non-Local Searchと呼ばれ、予測オフセットを囲む小さなグリッドサーチを実行し、小さな空間誤差を補正する。
本手法のインプレース計算では,メモリ消費が10倍少なく,従来よりも3倍以上高速である。
実験では, 空間誤差の補正により, 3dBPSNR以上の映像フレームアライメントの品質が向上する。
我々の検索では、既存の時空アテンションモジュールをアップグレードし、ビデオのデノベーション結果を0.30dBPSNRで改善し、全体の実行時間が7.5%増加した。
時空アテンションモジュールをUNetのようなアーキテクチャに統合し,映像デノーミングにおける最先端の成果を実現する。
関連論文リスト
- Fast graph-based denoising for point cloud color information [29.126056066012264]
例えば、3Dポイントクラウドを使ったライブストリーミングでは、視覚的品質を高めるためにリアルタイムのポイントクラウドデノゲーション方法が必要である。
本稿では,大規模クラウドのための高速グラフベースデノイング(FGBD)を提案する。
本実験では,従来の復調法と比較して精度を保ちながら,処理時間を劇的に短縮することに成功した。
論文 参考訳(メタデータ) (2024-01-18T04:51:41Z) - No-frills Temporal Video Grounding: Multi-Scale Neighboring Attention
and Zoom-in Boundary Detection [52.03562682785128]
時間的ビデオグラウンドティングは、未編集のビデオから言語クエリの時間間隔を取得することを目的としている。
テレビGにおける重要な課題は、低SNR(Semantic Noise Ratio)による低SNRの性能低下である。
本稿では,2つのコアモジュールからなる非フリーズTVGモデルを提案する。
論文 参考訳(メタデータ) (2023-07-20T04:12:10Z) - Pseudo-Inverted Bottleneck Convolution for DARTS Search Space [35.50068534514941]
本稿では,ConvNeXt で提案された逆ボトルネックブロックの計算フットプリントを削減することを目的とした Pseudo-Inverted Bottleneck (PIBConv) ブロックを提案する。
提案したアーキテクチャは, 評価層数に対してはるかに感度が低く, DARTSネットワークを2。
論文 参考訳(メタデータ) (2022-12-31T22:56:04Z) - Video-based Person Re-identification without Bells and Whistles [49.51670583977911]
ビデオベースの人物再識別(Re-ID)は、異なるカメラの下で歩行者を特定するために、ビデオトラッカーとトリミングされたビデオフレームをマッチングすることを目的としている。
従来の方法による不完全な検出と追跡の結果から, 収穫したトラックレットの空間的, 時間的不整合が生じている。
本稿では,深層学習に基づくトラックレットの検出と追跡を適用することで,これらの予期せぬノイズを効果的に低減できる簡易な再検出リンク(DL)モジュールを提案する。
論文 参考訳(メタデータ) (2021-05-22T10:17:38Z) - ViPNAS: Efficient Video Pose Estimation via Neural Architecture Search [94.90294600817215]
高速なオンラインビデオポーズ推定のための空間的・時間的ネットワークに対する新しいニューラルネットワーク探索(NAS)手法(ViPNAS)を提案する。
空間レベルでは,ネットワーク深さ,幅,カーネルサイズ,グループ数,注目度などの5つの異なる次元の探索空間を慎重に設計する。
時間レベルでは、一連の時間的特徴融合から検索し、複数のビデオフレームの合計精度と速度を最適化する。
論文 参考訳(メタデータ) (2021-05-21T06:36:40Z) - Stagnation Detection in Highly Multimodal Fitness Landscapes [0.0]
局所最適化から逃れるためのランダム化探索のメカニズムとして,定常検出法が提案されている。
本稿では,探索半径をより注意深く制御するために,静止検出に付加できる半径メモリと呼ばれる新しい機構について検討する。
このアイデアはSD-RLS$textm$と呼ばれるアルゴリズムで実装され、それまでのステージング検出の変種と比較して高速化された。
論文 参考訳(メタデータ) (2021-04-09T14:33:52Z) - ISTA-NAS: Efficient and Consistent Neural Architecture Search by Sparse
Coding [86.40042104698792]
スパース符号問題としてニューラルアーキテクチャ探索を定式化する。
実験では、CIFAR-10の2段階法では、検索にわずか0.05GPUしか必要としない。
本手法は,CIFAR-10とImageNetの両方において,評価時間のみのコストで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-13T04:34:24Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Expedited Multi-Target Search with Guaranteed Performance via
Multi-fidelity Gaussian Processes [9.434133337939496]
本研究では,自動運転車が3次元環境下で動作し,環境の2次元フロア上で未知の静止目標を探索するシナリオを考察する。
床面から異なる高度で利用可能なセンシング情報を体系的に記述する多要素ガウス法を用いて、センシング場をモデル化する。
センサモデルに基づいて,マルチターゲット探索 (EMTS) と呼ばれる新しいアルゴリズムを設計し,その適用範囲と精度のトレードオフに対処する。
論文 参考訳(メタデータ) (2020-05-18T02:53:52Z) - Latency-Aware Differentiable Neural Architecture Search [113.35689580508343]
近年、探索コストの低さと検索空間設計の柔軟性から、微分可能なニューラルネットワーク探索法が人気を博している。
しかし、これらの手法はネットワーク最適化の難しさに悩まされており、検索されたネットワークはハードウェアに不便な場合が多い。
本稿では,この問題を最適化に微分可能な遅延損失項を追加することにより,精度とレイテンシのトレードオフをバランス係数で行うことができる。
論文 参考訳(メタデータ) (2020-01-17T15:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。