Fugu-MT 論文翻訳(概要): Rethinking Dense Optical Flow without Test-Time Scaling

論文の概要: Rethinking Dense Optical Flow without Test-Time Scaling

arxiv url: http://arxiv.org/abs/2605.08000v1
Date: Fri, 08 May 2026 16:56:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:39.217892
Title: Rethinking Dense Optical Flow without Test-Time Scaling
Title（参考訳）: テスト時間スケーリングを伴わない高密度光流れの再考
Authors: Praroop Chanda, Suryansh Kumar,
Abstract要約: 単一の前方通過における高密度光流を推定する枠組みを提案する。本手法は,凍結したDINO-v2バックボーンから視覚的意味的特徴を抽出し,分子深度基礎モデルから幾何学的手がかりと組み合わせる。反復的な改善は避けたにもかかわらず、我々の手法は挑戦的なベンチマークで強力なデータセット間一般化を実現している。
参考スコア（独自算出の注目度）: 4.81005617256125
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent progress in dense optical flow has been driven by increasingly complex architectures and multi-step refinement for test-time scaling. While these approaches achieve strong benchmark performance, they also require substantial computation during inference. This raises a fundamental question: Is scaling test-time computation the only way to improve dense optical flow accuracy? We argue that it is not. Instead, powerful visual semantic and geometric priors encoded in modern foundation models can reduce, if not overcome, the need for computationally expensive iterative refinement at test-time. In this paper, we present a framework that estimates dense optical flow in a single forward pass, leveraging pretrained foundation representations, while avoiding iterative refinement and additional inference-time computation, thus offering an alternative to test-time scaling. Our method extracts visual semantic features from a frozen DINO-v2 backbone and combines them with geometric cues from a monocular depth foundation model. We fuse these complementary priors into a unified representation and apply a global matching formulation to estimate dense correspondences without recurrent updates or test-time optimization. Despite avoiding iterative refinement, our approach achieves strong cross-dataset generalization across challenging benchmarks. On Sintel Final, we obtain 2.81 EPE without refinement, significantly improving over state-of-the-art (SOTA) SEA-RAFT under comparable training conditions and outperforming RAFT, GMFlow (without refinement), and recent FlowSeek in the same setting. These results suggest that strong foundation priors can substitute for test-time scaling, offering a computationally efficient alternative to refinement-heavy pipelines.
Abstract（参考訳）: 近年の高密度光流の進展は、ますます複雑なアーキテクチャとテスト時間スケーリングのための多段階改良によって加速されている。これらのアプローチは強力なベンチマーク性能を実現する一方で、推論中にかなりの計算を必要とする。テスト時間計算のスケーリングは、高密度な光フロー精度を改善する唯一の方法なのだろうか? 私たちはそうではないと論じる。代わりに、現代の基礎モデルで符号化された強力な視覚的意味論と幾何学的先行性は、もし克服しなければ、テスト時に計算的に高価な反復的洗練の必要性を減らすことができる。本稿では,事前学習された基礎表現を活用して,単一前方通過における高密度光流を推定するフレームワークについて,反復的洗練と追加の推論時間計算を回避し,テスト時間スケーリングの代替手段を提供する。本手法は,凍結したDINO-v2バックボーンから視覚的意味的特徴を抽出し,分子深度基礎モデルから幾何学的手がかりと組み合わせる。我々はこれらの相補的先行を統一表現に融合させ、再帰的な更新やテスト時間最適化を伴わずに、大域的マッチングの定式化を適用して、密接な対応を推定する。反復的な改善は避けたにもかかわらず、我々の手法は挑戦的なベンチマークで強力なデータセット間一般化を実現している。 Sintel Finalでは2.81EPEを改良せずに取得し、同等の訓練条件下での最先端(SOTA)SEA-RAFTよりも大幅に改善し、RAFT、GMFlow(改良なし)、そして最近のFlowSeekと同等条件で性能を向上した。これらの結果は、強力な基礎前提がテスト時間スケーリングの代わりになり、洗練されたパイプラインに代わる計算効率のよい代替となることを示唆している。

関連論文リスト

Efficiency vs. Fidelity: A Comparative Analysis of Diffusion Probabilistic Models and Flow Matching on Low-Resource Hardware [0.0]
Denoising Diffusion Probabilistic Models (DDPMs) は、生成画像合成における新しい最先端技術を確立した。本研究では,新たなフローマッチングパラダイムに対するDDPMの比較分析を行った。
論文参考訳（メタデータ） (2025-11-24T18:19:42Z)
Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文参考訳（メタデータ） (2025-08-13T17:33:37Z)
MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T16:50:23Z)
Rethinking Optical Flow from Geometric Matching Consistent Perspective [38.014569953980754]
本稿では,従来の光流量推定法について再考する。我々は,より優れた特徴表現を持つ光フロー推定(MatchFlow)のための事前学習タスクとして,GIMを使用している。 Sintel クリーンパスと KITTI テストセットの GMA から 11.5% と 10.1% の誤差削減を実現した。
論文参考訳（メタデータ） (2023-03-15T06:00:38Z)
Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文参考訳（メタデータ） (2022-04-18T17:53:44Z)
GMFlow: Learning Optical Flow via Global Matching [124.57850500778277]
光フロー推定学習のためのGMFlowフレームワークを提案する。機能拡張のためのカスタマイズトランスフォーマー、グローバル機能マッチングのための相関層とソフトマックス層、フロー伝搬のための自己保持層である。我々の新しいフレームワークは、挑戦的なSintelベンチマークにおいて、32項目RAFTのパフォーマンスより優れています。
論文参考訳（メタデータ） (2021-11-26T18:59:56Z)
Normalized Convolution Upsampling for Refined Optical Flow Estimation [23.652615797842085]
正常化された畳み込みのUPsampler (NCUP)は光学流れCNNsの訓練の間にフルレゾリューションの流れを作り出す有効な共同アップサンプリングのアプローチです。提案手法では,アップサンプリングタスクをスパース問題として定式化し,正規化畳み込みニューラルネットワークを用いて解く。 6%のエラー低減とKITTIデータセットのオンパーで、Sintelベンチマークの最新の結果を達成し、パラメータを7.5%削減します。
論文参考訳（メタデータ） (2021-02-13T18:34:03Z)
Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文参考訳（メタデータ） (2020-11-14T09:51:51Z)
FDFlowNet: Fast Optical Flow Estimation using a Deep Lightweight Network [12.249680550252327]
我々はFDFlowNet(fast Deep Flownet)と呼ばれるリアルタイム光フロー推定のための軽量で効果的なモデルを提案する。我々は、PWC-Netの約2倍の速度で、挑戦的なKITTIとSintelベンチマークにおいて、より良い、あるいは同様の精度を達成する。
論文参考訳（メタデータ） (2020-06-22T14:01:01Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。