論文の概要: DepthFlow: Exploiting Depth-Flow Structural Correlations for Unsupervised Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2507.19790v1
- Date: Sat, 26 Jul 2025 04:31:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.191603
- Title: DepthFlow: Exploiting Depth-Flow Structural Correlations for Unsupervised Video Object Segmentation
- Title(参考訳): DepthFlow: 教師なしビデオオブジェクトセグメンテーションのための深さ流構造相関の爆発的生成
- Authors: Suhwan Cho, Minhyeok Lee, Jungho Lee, Donghyeong Kim, Sangyoun Lee,
- Abstract要約: ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の最も顕著なオブジェクトを検出することを目的としている。
単一画像から光の流れを合成する新しいデータ生成法であるDepthFlowを提案する。
データ不足問題に対するスケーラブルで効果的なソリューションを実証し、すべての公開VOSベンチマークで最新のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 14.635179908525389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised video object segmentation (VOS) aims to detect the most prominent object in a video. Recently, two-stream approaches that leverage both RGB images and optical flow have gained significant attention, but their performance is fundamentally constrained by the scarcity of training data. To address this, we propose DepthFlow, a novel data generation method that synthesizes optical flow from single images. Our approach is driven by the key insight that VOS models depend more on structural information embedded in flow maps than on their geometric accuracy, and that this structure is highly correlated with depth. We first estimate a depth map from a source image and then convert it into a synthetic flow field that preserves essential structural cues. This process enables the transformation of large-scale image-mask pairs into image-flow-mask training pairs, dramatically expanding the data available for network training. By training a simple encoder-decoder architecture with our synthesized data, we achieve new state-of-the-art performance on all public VOS benchmarks, demonstrating a scalable and effective solution to the data scarcity problem.
- Abstract(参考訳): 教師なしビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の最も顕著なオブジェクトを検出することを目的としている。
近年,RGB画像と光フローの両方を活用する2ストリームアプローチが注目されているが,その性能はトレーニングデータの不足によって根本的に制約されている。
そこで本研究では,単一画像から光フローを合成する新しいデータ生成手法であるDepthFlowを提案する。
我々のアプローチは、VOSモデルは幾何学的精度よりもフローマップに埋め込まれた構造情報に依存しており、この構造は深さと非常に相関しているというキーインサイトから導かれる。
まずソース画像から深度マップを推定し,本質的な構造的手がかりを保存した合成流れ場に変換する。
このプロセスにより、大規模なイメージマスクペアをイメージフローマスクトレーニングペアに変換することができ、ネットワークトレーニングで利用可能なデータを劇的に拡張することができる。
合成したデータを用いて単純なエンコーダ・デコーダアーキテクチャをトレーニングすることにより、すべての公開VOSベンチマークで最新のパフォーマンスを実現し、データ不足問題に対するスケーラブルで効果的な解決策を実証する。
関連論文リスト
- Flow-Anything: Learning Real-World Optical Flow Estimation from Large-Scale Single-view Images [23.731451842621933]
実世界の任意の単一視点画像から光フロー推定を学習するための大規模データ生成フレームワークを開発した。
大規模な実世界の画像から光フロートレーニングデータを生成する利点を初めて示す。
我々のモデルは、基礎モデルとして機能し、様々なダウンストリームビデオタスクのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-06-09T13:23:44Z) - Improving Unsupervised Video Object Segmentation via Fake Flow Generation [20.89278343723177]
本稿では,単一画像からの擬似光フローをシミュレートする新しいデータ生成手法を提案する。
光フローマップは深度マップに大きく依存していることから着想を得て,各画像の深度マップを精細化し,拡大することにより,偽の光フローを生成する。
論文 参考訳(メタデータ) (2024-07-16T13:32:50Z) - Moving Object Proposals with Deep Learned Optical Flow for Video Object
Segmentation [1.551271936792451]
我々は、移動オブジェクト提案(MOP)を得るために、ニューラルネットワークの最先端アーキテクチャを提案する。
まず、教師なし畳み込みニューラルネットワーク(UnFlow)をトレーニングし、光学的フロー推定を生成する。
次に、光学フローネットの出力を、完全に畳み込みのSegNetモデルに描画する。
論文 参考訳(メタデータ) (2024-02-14T01:13:55Z) - Hierarchical Graph Pattern Understanding for Zero-Shot VOS [102.21052200245457]
本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための新しい階層型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。
構造的関係を捕捉するGNNの強い能力にインスパイアされたHGPUは、運動キュー(すなわち光の流れ)を革新的に活用し、ターゲットフレームの隣人からの高次表現を強化する。
論文 参考訳(メタデータ) (2023-12-15T04:13:21Z) - RealFlow: EM-based Realistic Optical Flow Dataset Generation from Videos [28.995525297929348]
RealFlowは、ラベルのないリアルなビデオから直接、大規模な光フローデータセットを作成することができるフレームワークである。
まず,一対のビデオフレーム間の光フローを推定し,予測されたフローに基づいて,このペアから新たな画像を生成する。
本手法は,教師付きおよび教師なしの光流法と比較して,2つの標準ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-22T13:33:03Z) - USegScene: Unsupervised Learning of Depth, Optical Flow and Ego-Motion
with Semantic Guidance and Coupled Networks [31.600708674008384]
UegSceneは、ステレオカメラ画像の奥行き、光学的流れ、エゴモーション推定を意味的に導くためのフレームワークである。
一般的なKITTIデータセットを用いて,提案手法が他の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-07-15T13:25:47Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Deep Direct Volume Rendering: Learning Visual Feature Mappings From
Exemplary Images [57.253447453301796]
本稿では,ディープ・ダイレクト・ボリューム・レンダリング(Deep Direct Volume Rendering,DVR)を導入し,ディープ・ニューラル・ネットワークをDVRアルゴリズムに統合する。
潜在色空間におけるレンダリングを概念化し、深層アーキテクチャを用いて特徴抽出と分類のための暗黙マッピングを学習できるようにする。
我々の一般化は、画像空間の例から直接エンドツーエンドにトレーニングできる新しいボリュームレンダリングアーキテクチャを導き出すのに役立つ。
論文 参考訳(メタデータ) (2021-06-09T23:03:00Z) - Learning optical flow from still images [53.295332513139925]
我々は,容易に利用可能な単一の実画像から,高精度な光学的フローアノテーションを迅速かつ多量に生成するフレームワークを提案する。
既知の動きベクトルと回転角を持つ再構成された環境でカメラを仮想的に移動させる。
我々のデータでトレーニングすると、最先端の光フローネットワークは、実データを見るのに優れた一般化を実現する。
論文 参考訳(メタデータ) (2021-04-08T17:59:58Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。