論文の概要: CCMR: High Resolution Optical Flow Estimation via Coarse-to-Fine
Context-Guided Motion Reasoning
- arxiv url: http://arxiv.org/abs/2311.02661v1
- Date: Sun, 5 Nov 2023 14:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 16:28:44.216472
- Title: CCMR: High Resolution Optical Flow Estimation via Coarse-to-Fine
Context-Guided Motion Reasoning
- Title(参考訳): ccmr: 粗視から微視への動き推論による高分解能光フロー推定
- Authors: Azin Jahedi, Maximilian Luz, Marc Rivinius, Andr\'es Bruhn
- Abstract要約: マルチスケール光フロー推定に注目に基づく動きグルーピングの概念を活用する高分解能粗度アプローチであるCCMRを提案する。
CCMRは階層的な2段階の注意に基づく文脈移動グループ戦略に依存している。
実験と改善は、マルチスケールとアテンションに基づく概念を組み合わせる努力が報われることを示している。
- 参考スコア(独自算出の注目度): 1.0855602842179624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based motion aggregation concepts have recently shown their
usefulness in optical flow estimation, in particular when it comes to handling
occluded regions. However, due to their complexity, such concepts have been
mainly restricted to coarse-resolution single-scale approaches that fail to
provide the detailed outcome of high-resolution multi-scale networks. In this
paper, we hence propose CCMR: a high-resolution coarse-to-fine approach that
leverages attention-based motion grouping concepts to multi-scale optical flow
estimation. CCMR relies on a hierarchical two-step attention-based
context-motion grouping strategy that first computes global multi-scale context
features and then uses them to guide the actual motion grouping. As we iterate
both steps over all coarse-to-fine scales, we adapt cross covariance image
transformers to allow for an efficient realization while maintaining
scale-dependent properties. Experiments and ablations demonstrate that our
efforts of combining multi-scale and attention-based concepts pay off. By
providing highly detailed flow fields with strong improvements in both occluded
and non-occluded regions, our CCMR approach not only outperforms both the
corresponding single-scale attention-based and multi-scale attention-free
baselines by up to 23.0% and 21.6%, respectively, it also achieves
state-of-the-art results, ranking first on KITTI 2015 and second on MPI Sintel
Clean and Final. Code and trained models are available at
https://github.com/cv-stuttgart /CCMR.
- Abstract(参考訳): 注意に基づくモーションアグリゲーションの概念は、特に閉塞領域の処理において、光学的フロー推定に有用であることを示した。
しかし、その複雑さのため、そのような概念は主に、高解像度のマルチスケールネットワークの詳細な結果を提供するのに失敗する粗大な単一スケールのアプローチに限られている。
そこで本稿では,注目に基づく動きのグルーピングの概念を応用した高分解能粗度アプローチであるCCMRを提案する。
CCMRは階層的な2段階の注意に基づくコンテキスト・モーション・グルーピング戦略に依存しており、まずグローバルなマルチスケールのコンテキスト特徴を計算し、それから実際のモーション・グルーピングを導く。
すべての粗いスケールから細いスケールへのステップを繰り返すと、クロス共分散画像変換器を適応させ、スケール依存特性を維持しながら効率的な実現を可能にします。
実験と改善は、マルチスケールとアテンションに基づく概念を組み合わせる努力が報われることを示している。
閉塞領域と非閉塞領域の両方で強い改善を施した高精細な流れ場を提供することで、CCMRアプローチは、対応するシングルスケールの注意ベースベースとマルチスケールの注意ベースの両方を最大23.0%、21.6%上回るだけでなく、最先端の結果も達成し、KITTI 2015とMPIシンテルクリーンとファイナルで第2位にランクインした。
コードとトレーニングされたモデルはhttps://github.com/cv-stuttgart/ccmrで利用可能である。
関連論文リスト
- Fast Disentangled Slim Tensor Learning for Multi-view Clustering [28.950845031752927]
本稿では,マルチビュークラスタリングのための高速離散スリム学習法(DSTL)を提案する。
頑健なPCAにインスパイアされた特徴冗長性の負の影響を軽減するため、DSTLは、潜在する低次元表現を、各ビューに対する意味的非関連部分と意味的関連部分に分解する。
提案手法は計算効率が高く,効果的に解ける。
論文 参考訳(メタデータ) (2024-11-12T09:57:53Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - GA-HQS: MRI reconstruction via a generically accelerated unfolding
approach [14.988694941405575]
画素レベルでの入力の微妙な融合のための2階勾配情報とピラミッドアテンションモジュールを組み込んだGA-HQSアルゴリズムを提案する。
本手法は, 単コイルMRI加速度タスクにおいて, 従来よりも優れている。
論文 参考訳(メタデータ) (2023-04-06T06:21:18Z) - Federated Representation Learning via Maximal Coding Rate Reduction [109.26332878050374]
本稿では,複数のクライアントに分散したデータセットから低次元表現を学習する手法を提案する。
提案手法はFLOWと呼ばれ, MCR2を選択の対象とし, その結果, クラス間判別とクラス内圧縮の両方が可能な表現が得られた。
論文 参考訳(メタデータ) (2022-10-01T15:43:51Z) - EMC2A-Net: An Efficient Multibranch Cross-channel Attention Network for
SAR Target Classification [10.479559839534033]
本稿では,マルチブランチ構造に基づくマルチスケール受信フィールド(RF)を有するEMC2Aブロックを2つ提案し,効率的な異方性アーキテクチャであるDCNN,EMC2A-Netを設計した。
EMC2Aブロックは、異なる拡張レートの並列拡張畳み込みを利用して、計算負担を大幅に増大させることなく、マルチスケールのコンテキスト特徴を効果的にキャプチャすることができる。
本稿では,EMC2Aモジュールと呼ばれるマルチスケールのマルチチャネルアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2022-08-03T04:31:52Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Learning to Estimate Hidden Motions with Global Motion Aggregation [71.12650817490318]
閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。
最初の画像でピクセル間の長距離依存性を見つけるために,グローバルモーションアグリゲーションモジュールを導入する。
遮蔽領域における光流量推定が非遮蔽領域における性能を損なうことなく大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2021-04-06T10:32:03Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。