論文の概要: Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching
- arxiv url: http://arxiv.org/abs/2512.11130v1
- Date: Thu, 11 Dec 2025 21:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.577844
- Title: Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching
- Title(参考訳): Fast-FoundationStereo: リアルタイムゼロショットステレオマッチング
- Authors: Bowen Wen, Shaurya Dewan, Stan Birchfield,
- Abstract要約: 我々はFast-FoundationStereo(ファスト・ファウンデーション・ステーオ)という,リアルタイムフレームレートでゼロショットの強力な一般化を実現するアーキテクチャのファスト・ファウンデーション・ステーオ(ファスト・ファウンデーション・ステーオ)を提示する。
我々は,知識蒸留,ブロックワイドニューラルアーキテクチャ探索,構造化プルーニングという3つのコンポーネントによる分別/対数加速戦略を採用している。
結果のモデルはFoundationStereoの10倍高速で動作でき、ゼロショットの精度は密に一致している。
- 参考スコア(独自算出の注目度): 16.927491376135134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stereo foundation models achieve strong zero-shot generalization but remain computationally prohibitive for real-time applications. Efficient stereo architectures, on the other hand, sacrifice robustness for speed and require costly per-domain fine-tuning. To bridge this gap, we present Fast-FoundationStereo, a family of architectures that achieve, for the first time, strong zero-shot generalization at real-time frame rate. We employ a divide-and-conquer acceleration strategy with three components: (1) knowledge distillation to compress the hybrid backbone into a single efficient student; (2) blockwise neural architecture search for automatically discovering optimal cost filtering designs under latency budgets, reducing search complexity exponentially; and (3) structured pruning for eliminating redundancy in the iterative refinement module. Furthermore, we introduce an automatic pseudo-labeling pipeline used to curate 1.4M in-the-wild stereo pairs to supplement synthetic training data and facilitate knowledge distillation. The resulting model can run over 10x faster than FoundationStereo while closely matching its zero-shot accuracy, thus establishing a new state-of-the-art among real-time methods. Project page: https://nvlabs.github.io/Fast-FoundationStereo/
- Abstract(参考訳): ステレオ基礎モデルは強力なゼロショット一般化を実現するが、リアルタイムアプリケーションでは計算的に禁じられている。
一方、効率的なステレオアーキテクチャは、スピードの堅牢性を犠牲にして、ドメインごとの微調整にコストがかかる。
このギャップを埋めるために、我々はFast-FoundationStereoという、リアルタイムフレームレートで強力なゼロショット一般化を実現するアーキテクチャのファミリーを紹介します。
我々は,(1)ハイブリッドバックボーンを1つの効率のよい学生に圧縮する知識蒸留,(2)遅延予算下で最適なコストフィルタリング設計を自動的に発見するためのブロックワイドニューラルネットワーク探索,(3)反復精製モジュールの冗長性を除去するための構造化プルーニング,の3つのコンポーネントを用いた分別/分別/分別加速戦略を採用している。
さらに, 合成学習データを補完し, 知識蒸留を容易にするために, 1.4Mの固定ステレオペアをキュレートする擬似ラベルパイプラインを導入する。
結果のモデルはFoundationStereoよりも10倍高速に動作でき、ゼロショットの精度は密に一致しているため、リアルタイムメソッド間の新たな最先端性を確立することができる。
プロジェクトページ: https://nvlabs.github.io/Fast-FoundationStereo/
関連論文リスト
- Fast-ARDiff: An Entropy-informed Acceleration Framework for Continuous Space Autoregressive Generation [12.384836052394272]
自己回帰(AR)拡散ハイブリッドパラダイムはARの構造モデリングと拡散合成を組み合わせたものである。
両コンポーネントを協調的に最適化するAR拡散フレームワークFast-ARDiffを提案する。
Fast-ARDiffは、さまざまなモデルにわたる最先端のアクセラレーションを実現する。
論文 参考訳(メタデータ) (2025-12-09T12:35:18Z) - Lite Any Stereo: Efficient Zero-Shot Stereo Matching [21.89511226115265]
Lite Any Stereoは、高効率を維持しながら強力なゼロショット一般化を実現するフレームワークである。
我々のモデルは、最先端の非原始的精度の手法に匹敵する精度を得る。
論文 参考訳(メタデータ) (2025-11-20T17:07:06Z) - ResidualViT for Efficient Temporally Dense Video Encoding [66.57779133786131]
我々は,時間的に密集したタスクに対する計算機能のコスト削減に3つの貢献をしている。
まず、ビデオの時間的冗長性を活用するビジョントランスフォーマー(ViT)アーキテクチャ、ResidualViTを紹介する。
第2に,原基礎モデルのフレームレベルの特徴を近似する軽量蒸留方式を提案する。
論文 参考訳(メタデータ) (2025-09-16T17:12:23Z) - AutoHFormer: Efficient Hierarchical Autoregressive Transformer for Time Series Prediction [36.239648954658534]
時系列予測には、3つの競合する目標を同時に達成するアーキテクチャが必要である。
本稿では,これらの課題に対処する階層型自己回帰変換器であるAutoHFormerを紹介する。
総合的な実験により、AutoHFormer 10.76XはP08のPatchTSTと比較して高速なトレーニングと6.06倍のメモリ削減を示した。
論文 参考訳(メタデータ) (2025-06-19T03:47:04Z) - ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - LeanStereo: A Leaner Backbone based Stereo Network [10.824879437909306]
学習注意重みに基づくコストボリュームとLogL1損失を組み合わせた高速なエンドツーエンドステレオマッチング手法を提案する。
また,本手法は操作を4倍に減らし,工法に比べて約9~14倍高速であることを示す。
論文 参考訳(メタデータ) (2025-03-24T11:10:52Z) - FNAS: Uncertainty-Aware Fast Neural Architecture Search [54.49650267859032]
強化学習(Reinforcement Learning, RL)に基づくニューラルアーキテクチャサーチ(NAS)は一般的に、収束性の向上を保証するが、巨大な計算資源の要求に悩まされる。
NASにおけるロールアウトプロセスとRLプロセスの収束を加速する汎用パイプラインを提案する。
Mobile Neural Architecture Search (MNAS)サーチスペースの実験では、提案するFast Neural Architecture Search (FNAS)が標準のRLベースのNASプロセスを10倍高速化することを示した。
論文 参考訳(メタデータ) (2021-05-25T06:32:52Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - AANet: Adaptive Aggregation Network for Efficient Stereo Matching [33.39794232337985]
現在の最先端ステレオモデルは、ほとんどが高価な3D畳み込みに基づいている。
エッジフェットング問題を緩和するために,スパースポイントに基づくスケール内コストアグリゲーション手法を提案する。
また、従来のクロススケールなコスト集約アルゴリズムをニューラルネットワーク層に近似して、大きなテクスチャレス領域を処理する。
論文 参考訳(メタデータ) (2020-04-20T18:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。