論文の概要: FlowFeat: Pixel-Dense Embedding of Motion Profiles
- arxiv url: http://arxiv.org/abs/2511.07696v1
- Date: Wed, 12 Nov 2025 01:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.433968
- Title: FlowFeat: Pixel-Dense Embedding of Motion Profiles
- Title(参考訳): FlowFeat: モーションプロファイルのピクセル密度埋め込み
- Authors: Nikita Araslanov, Anna Sonnweber, Daniel Cremers,
- Abstract要約: FlowFeatは高解像度でマルチタスクの機能表現である。
我々の研究は、信頼性と多目的な高密度画像表現に向けて一歩前進する。
- 参考スコア(独自算出の注目度): 51.933932255458906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense and versatile image representations underpin the success of virtually all computer vision applications. However, state-of-the-art networks, such as transformers, produce low-resolution feature grids, which are suboptimal for dense prediction tasks. To address this limitation, we present FlowFeat, a high-resolution and multi-task feature representation. The key ingredient behind FlowFeat is a novel distillation technique that embeds a distribution of plausible apparent motions, or motion profiles. By leveraging optical flow networks and diverse video data, we develop an effective self-supervised training framework that statistically approximates the apparent motion. With its remarkable level of spatial detail, FlowFeat encodes a compelling degree of geometric and semantic cues while exhibiting high temporal consistency. Empirically, FlowFeat significantly enhances the representational power of five state-of-the-art encoders and alternative upsampling strategies across three dense tasks: video object segmentation, monocular depth estimation and semantic segmentation. Training FlowFeat is computationally inexpensive and robust to inaccurate flow estimation, remaining highly effective even when using unsupervised flow networks. Our work takes a step forward towards reliable and versatile dense image representations.
- Abstract(参考訳): 繊細で汎用的な画像表現は、事実上全てのコンピュータビジョンアプリケーションの成功を支えている。
しかし、トランスのような最先端のネットワークは、高密度予測タスクに最適である低解像度の特徴グリッドを生成する。
この制限に対処するため、高解像度でマルチタスクな特徴表現であるFlowFeatを提案する。
FlowFeatの背後にある重要な要素は、可視的な運動、またはモーションプロファイルの分布を埋め込む新しい蒸留技術である。
光フローネットワークと多様なビデオデータを活用することで、視覚運動を統計的に近似する効果的な自己教師型トレーニングフレームワークを開発する。
FlowFeatは、空間的詳細の顕著なレベルにおいて、高い時間的一貫性を示しながら、魅力的な幾何的および意味的なキューをエンコードする。
実証的に、FlowFeatは5つの最先端エンコーダの表現力を著しく向上させ、ビデオオブジェクトセグメンテーション、モノクロ深度推定、セマンティックセグメンテーションという3つの密なタスクにまたがる代替のアップサンプリング戦略を実現している。
FlowFeatのトレーニングは、計算的に安価で、不正確なフロー推定に堅牢であり、教師なしフローネットワークを使用しても、非常に効果的である。
我々の研究は、信頼性と多目的な高密度画像表現に向けて一歩前進する。
関連論文リスト
- FlowIE: Efficient Image Enhancement via Rectified Flow [71.6345505427213]
FlowIEはフローベースのフレームワークであり、基本的な分布から高品質な画像への直線パスを推定する。
私たちのコントリビューションは、合成および実世界のデータセットに関する包括的な実験を通じて、厳密に検証されています。
論文 参考訳(メタデータ) (2024-06-01T17:29:29Z) - Non-Separable Multi-Dimensional Network Flows for Visual Computing [62.50191141358778]
本研究では,非分離型多次元ネットワークフローに対する新しい定式化法を提案する。
フローは次元ごとに定義されるので、最大化フローは自動的に最適な特徴次元を選択する。
概念実証として,マルチオブジェクト追跡問題にフォーマリズムを適用し,ノイズに対するロバスト性の観点からMOT16ベンチマークのスカラー定式化よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-15T13:21:44Z) - TransFlow: Transformer as Flow Learner [22.727953339383344]
本稿では,光フロー推定のためのトランスフォーマーアーキテクチャであるTransFlowを提案する。
フロー推定において、より正確な相関と信頼できるマッチングを提供する。
ダイナミックなシーンにおける長距離時間的関連を通して、フロー推定においてより妥協された情報を復元する。
論文 参考訳(メタデータ) (2023-04-23T03:11:23Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Unsupervised Motion Representation Enhanced Network for Action
Recognition [4.42249337449125]
連続するフレーム間の動きの表現は、ビデオの理解を大いに促進することが証明されている。
効果的な光フロー解決器であるTV-L1法は、抽出した光フローをキャッシュするために時間と費用がかかる。
UF-TSN(UF-TSN)は、軽量な非監視光フロー推定器を組み込んだ、エンドツーエンドのアクション認識手法です。
論文 参考訳(メタデータ) (2021-03-05T04:14:32Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Hierarchical Attention Learning of Scene Flow in 3D Point Clouds [28.59260783047209]
本稿では,2つの連続する3次元点雲からのシーンフロー推定の問題について検討する。
隣接フレームにおける点特徴の相関を学習するために, 二重注意を有する新しい階層型ニューラルネットワークを提案する。
実験の結果,提案したネットワークは3次元シーンフロー推定の最先端性能より優れていた。
論文 参考訳(メタデータ) (2020-10-12T14:56:08Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。