論文の概要: High Resolution Multi-Scale RAFT (Robust Vision Challenge 2022)
- arxiv url: http://arxiv.org/abs/2210.16900v1
- Date: Sun, 30 Oct 2022 17:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 17:44:35.308777
- Title: High Resolution Multi-Scale RAFT (Robust Vision Challenge 2022)
- Title(参考訳): 高分解能マルチスケールRAFT (Robust Vision Challenge 2022)
- Authors: Azin Jahedi, Maximilian Luz, Lukas Mehl, Marc Rivinius, Andr\'es Bruhn
- Abstract要約: 本稿では,2022年のロバスト・ビジョン・チャレンジで優勝したMS-RAFT+について述べる。
これはMS-RAFT法に基づいており、複数のマルチスケールの概念を単一スケールのRAFTに統合することに成功した。
提案手法は,オンデマンドのコスト計算によって実現可能なフロー推定に,さらに細かなスケールを生かして拡張する。
- 参考スコア(独自算出の注目度): 0.6299766708197884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present our optical flow approach, MS-RAFT+, that won the
Robust Vision Challenge 2022. It is based on the MS-RAFT method, which
successfully integrates several multi-scale concepts into single-scale RAFT.
Our approach extends this method by exploiting an additional finer scale for
estimating the flow, which is made feasible by on-demand cost computation. This
way, it can not only operate at half the original resolution, but also use
MS-RAFT's shared convex upsampler to obtain full resolution flow. Moreover, our
approach relies on an adjusted fine-tuning scheme during training. This in turn
aims at improving the generalization across benchmarks. Among all participating
methods in the Robust Vision Challenge, our approach ranks first on VIPER and
second on KITTI, Sintel, and Middlebury, resulting in the first place of the
overall ranking.
- Abstract(参考訳): 本稿では,ロバスト・ビジョン・チャレンジ2022で優勝した光学フローアプローチMS-RAFT+について述べる。
これはMS-RAFT法に基づいており、複数のマルチスケールの概念を単一スケールのRAFTに統合することに成功した。
提案手法は,オンデマンドのコスト計算によって実現可能なフロー推定に,さらに細かなスケールを応用して拡張する。
これにより、元の解像度の半分で動作できるだけでなく、ms-raftのshared convex upsamplerを使ってフル解像度のフローを得ることができる。
さらに,本手法はトレーニング中の微調整方式に依存する。
これは、ベンチマーク全体の一般化を改善することを目的としている。
ロバストなビジョンチャレンジに参加するすべての方法の中で、我々のアプローチは、viperで第1位、kitti、sintel、ミドルベリーで第2位となり、総合ランキングで第1位となった。
関連論文リスト
- Rethinking the Upsampling Layer in Hyperspectral Image Super Resolution [51.98465973507002]
ハイパースペクトル画像のマルチスケールチャネル特性のキャリブレーションにチャネルアテンションを組み込んだ,新しい軽量SHSRネットワーク LKCA-Net を提案する。
我々は、学習可能なアップサンプリング層の低ランク特性が軽量なSHSR手法における重要なボトルネックであることを初めて証明した。
論文 参考訳(メタデータ) (2025-01-30T15:43:34Z) - First Place Solution to the ECCV 2024 BRAVO Challenge: Evaluating Robustness of Vision Foundation Models for Semantic Segmentation [1.8570591025615457]
我々はECCV 2024 BRAVO Challengeの第1位となるソリューションを提示する。
モデルはCityscapesでトレーニングされ、その堅牢性はいくつかのアウト・オブ・ディストリビューションデータセットで評価される。
このアプローチは、より複雑な既存のアプローチよりも優れており、チャレンジにおいて第一位を達成しています。
論文 参考訳(メタデータ) (2024-09-25T16:15:06Z) - Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles [83.85151306138007]
Multi-level Actor-Critic (MAC) フレームワークには、MLMC (Multi-level Monte-Carlo) 推定器が組み込まれている。
MACは、平均報酬設定において、既存の最先端ポリシーグラデーションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-18T16:23:47Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Diffusion for Natural Image Matting [88.58577778234036]
DiffMatteは、画像マッチングの課題を克服するために設計されたソリューションである。
まず、DiffMatteはデコーダを複雑な結合されたマッティングネットワーク設計から切り離し、拡散プロセスのイテレーションで1つの軽量デコーダだけを含む。
第2に、均一な時間間隔を持つ自己整合トレーニング戦略を採用し、時間領域全体にわたるトレーニングと推論の間に一貫したノイズサンプリングを確保する。
論文 参考訳(メタデータ) (2023-12-10T15:28:56Z) - CCMR: High Resolution Optical Flow Estimation via Coarse-to-Fine
Context-Guided Motion Reasoning [1.0855602842179624]
マルチスケール光フロー推定に注目に基づく動きグルーピングの概念を活用する高分解能粗度アプローチであるCCMRを提案する。
CCMRは階層的な2段階の注意に基づく文脈移動グループ戦略に依存している。
実験と改善は、マルチスケールとアテンションに基づく概念を組み合わせる努力が報われることを示している。
論文 参考訳(メタデータ) (2023-11-05T14:14:24Z) - Blind Face Restoration: Benchmark Datasets and a Baseline Model [63.053331687284064]
Blind Face Restoration (BFR) は、対応する低品質 (LQ) 入力から高品質 (HQ) の顔画像を構築することを目的としている。
EDFace-Celeb-1M (BFR128) と EDFace-Celeb-150K (BFR512) と呼ばれる2つのブラインドフェイス復元ベンチマークデータセットを最初に合成する。
最先端の手法は、ブラー、ノイズ、低解像度、JPEG圧縮アーティファクト、それらの組み合わせ(完全な劣化)の5つの設定でベンチマークされる。
論文 参考訳(メタデータ) (2022-06-08T06:34:24Z) - Deep Model-Based Super-Resolution with Non-uniform Blur [1.7188280334580197]
非一様ぼかしを持つ超解像の最先端手法を提案する。
まず,線形化ADMM分割手法に基づく高速なプラグアンドプレイアルゴリズムを提案する。
反復アルゴリズムをひとつのネットワークに展開し、エンドツーエンドでトレーニングします。
論文 参考訳(メタデータ) (2022-04-21T13:57:21Z) - Normalizing Flow as a Flexible Fidelity Objective for Photo-Realistic
Super-resolution [161.39504409401354]
超解像は不適切な問題であり、高分解能画像は可算解空間の1つの可能性を表す。
しかし、支配的なパラダイムは、L_のようなピクセル単位の損失を採用することで、ぼやけた平均に向かって予測を駆動する。
本稿では,L_損失を再考することによりこの問題に対処し,一層条件流に対応することを示す。
この関係に触発されて、L_目的に対する忠実度に基づくオルタナティブとして一般流れを探索する。
より深いフローの柔軟性は、対向的な損失と組み合わせることで、より良い視覚的品質と一貫性をもたらすことを実証する。
論文 参考訳(メタデータ) (2021-11-05T17:56:51Z) - 1st Place Solution for ICDAR 2021 Competition on Mathematical Formula
Detection [3.600275712225597]
数式検出(MFD)に関するICDAR 2021コンペティションの第一位ソリューションを提示する。
MFDタスクには、大規模スパン、高さと幅の比率の大きなばらつき、リッチな文字集合と数学的表現を含む3つの重要な課題がある。
これらの課題を考慮し, アンカーフリー手法であるGeneralized Focal Loss (GFL) を用いた。
論文 参考訳(メタデータ) (2021-07-12T16:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。