論文の概要: Removing Cost Volumes from Optical Flow Estimators
- arxiv url: http://arxiv.org/abs/2510.13317v1
- Date: Wed, 15 Oct 2025 09:07:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.5854
- Title: Removing Cost Volumes from Optical Flow Estimators
- Title(参考訳): 光流量推定器によるコスト容積の除去
- Authors: Simon Kiefhaber, Stefan Roth, Simone Schaub-Meyer,
- Abstract要約: トレーニングを通して光フロー推定器からコストを削減できるトレーニング戦略を導入する。
我々の最も正確なモデルは最先端の精度に到達し、12倍速くなる。
われわれの最速モデルは、GPUメモリがわずか500,mathrmMB$で、フルHDフレームを20,mathrmFPS$で処理できる。
- 参考スコア(独自算出の注目度): 15.975043810682777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cost volumes are used in every modern optical flow estimator, but due to their computational and space complexity, they are often a limiting factor regarding both processing speed and the resolution of input frames. Motivated by our empirical observation that cost volumes lose their importance once all other network parts of, e.g., a RAFT-based pipeline have been sufficiently trained, we introduce a training strategy that allows removing the cost volume from optical flow estimators throughout training. This leads to significantly improved inference speed and reduced memory requirements. Using our training strategy, we create three different models covering different compute budgets. Our most accurate model reaches state-of-the-art accuracy while being $1.2\times$ faster and having a $6\times$ lower memory footprint than comparable models; our fastest model is capable of processing Full HD frames at $20\,\mathrm{FPS}$ using only $500\,\mathrm{MB}$ of GPU memory.
- Abstract(参考訳): コストボリュームは現代のあらゆる光学フロー推定器で使用されるが、計算量と空間の複雑さのため、処理速度と入力フレームの解像度の両方に関して制限要因となることが多い。
RAFTをベースとしたパイプラインの他の全てのネットワーク部分が十分に訓練されている場合、コストボリュームが重要性を損なうという経験的観察により、私たちは、トレーニングを通して光フロー推定器からコストボリュームを除去できるトレーニング戦略を導入しました。
これにより、推論速度が大幅に向上し、メモリ要求が減少する。
トレーニング戦略を使用して、さまざまな計算予算をカバーする3つの異なるモデルを作成します。
我々の最も正確なモデルは、1.2\times$で、同等のモデルよりも6\times$低いメモリフットプリントを持つ、最先端のモデルです。
関連論文リスト
- PMRT: A Training Recipe for Fast, 3D High-Resolution Aerodynamic Prediction [0.0]
サロゲートモデルは、訓練された設計空間内の空気力学を正確に予測することが示されている。
確率的多分解能トレーニングスケジュールであるプログレッシブ・マルチリゾリューション・トレーニング(PMRT)を提案する。
PMRTは、トレーニング中に変化する確率に基づいて、3つの解像度からバッチをサンプリングする。
シミュレーションパラメータの条件付けにより,実世界のデータセットを含む,さまざまな問題解決者から5つのデータセットを1つのモデルでトレーニングできることが示される。
論文 参考訳(メタデータ) (2025-09-21T18:05:50Z) - Simple ReFlow: Improved Techniques for Fast Flow Models [68.32300636049008]
拡散および流れマッチングモデルは、優れた生成性能を実現するが、多くのサンプリングステップを犠牲にしている。
我々は、力学、学習、推論のトレーニングに7つの改善点を提案する。
我々は、ニューラルネットワークによる高速な生成のために、最先端のFIDスコア(ガイダンスなし/参照なし)を達成している。
論文 参考訳(メタデータ) (2024-10-10T11:00:55Z) - Adaptive Layer Selection for Efficient Vision Transformer Fine-Tuning [18.776903525210933]
我々は、$textbfALaST$(textitAdaptive Layer Selection Fine-Tuning for Vision Transformers$)と呼ばれるViTの効率的な微調整方法を紹介した。
我々のアプローチは、すべての層が微調整中に等しく重要であるわけではなく、その重要性が現在のミニバッチによって異なるという観察に基づいている。
この適応型計算アロケーションは,計算資源の分散に最適に近いスケジュールを実現できることを示す。
論文 参考訳(メタデータ) (2024-08-16T11:27:52Z) - Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。
我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。
我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文 参考訳(メタデータ) (2024-07-22T17:23:28Z) - DIFT: Dynamic Iterative Field Transforms for Memory Efficient Optical
Flow [44.57023882737517]
光フロー推定のための軽量低レイテンシ・メモリ効率モデルを提案する。
DIFTは、モバイル、XR、マイクロUAV、ロボティクス、カメラなどのエッジアプリケーションで実現可能である。
Snapdragon 8 Gen 1 HTPの効率的なモバイルAIアクセラレータ上で,最初のリアルタイムコストボリュームベースの光フローDLアーキテクチャを実演する。
論文 参考訳(メタデータ) (2023-06-09T06:10:59Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Correlate-and-Excite: Real-Time Stereo Matching via Guided Cost Volume
Excitation [65.83008812026635]
本稿では,GCE ( Guided Cost Volume Excitation) を構築し,画像によって誘導されるコストボリュームの簡単なチャネル励磁により,性能が大幅に向上することを示す。
我々はCorrelate-and-Excite(CoEx)と呼ぶエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-12T14:32:26Z) - DCVNet: Dilated Cost Volume Networks for Fast Optical Flow [5.526631378837701]
コストボリュームは、2つの入力画像間での対応の類似性を捉え、最先端の光学的流れのアプローチにおいて重要な要素である。
そこで本研究では,小型・大規模の変位を同時に捉えるために,異なる拡張係数を持つコストボリュームを構築する方法を提案する。
スキップ接続を有するU-Netを用いて、拡張コストのボリュームを、光学的フローを得るために、可能なすべての変位の間の重みに変換する。
論文 参考訳(メタデータ) (2021-03-31T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。