論文の概要: SAMFlow: Eliminating Any Fragmentation in Optical Flow with Segment
Anything Model
- arxiv url: http://arxiv.org/abs/2307.16586v4
- Date: Thu, 21 Dec 2023 07:03:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:46:37.084399
- Title: SAMFlow: Eliminating Any Fragmentation in Optical Flow with Segment
Anything Model
- Title(参考訳): samflow: segment anythingモデルによる光フローのフラグメンテーションの排除
- Authors: Shili Zhou, Ruian He, Weimin Tan and Bo Yan
- Abstract要約: 本研究では,凍結したSAMイメージエンコーダをFlowFormerに埋め込んでオブジェクト認識を強化する方法を提案する。
提案したSAMFlowモデルは,SintelおよびKITTI-15トレーニングセットで0.86/2.10クリーン/ファイナルEPEと3.55/12.32EPE/F1-allに達し,Flowformerの8.5%/9.9%,13.2%/16.3%を上回った。
- 参考スコア(独自算出の注目度): 17.88914104216893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical Flow Estimation aims to find the 2D dense motion field between two
frames. Due to the limitation of model structures and training datasets,
existing methods often rely too much on local clues and ignore the integrity of
objects, resulting in fragmented motion estimation. Through theoretical
analysis, we find the pre-trained large vision models are helpful in optical
flow estimation, and we notice that the recently famous Segment Anything Model
(SAM) demonstrates a strong ability to segment complete objects, which is
suitable for solving the fragmentation problem. We thus propose a solution to
embed the frozen SAM image encoder into FlowFormer to enhance object
perception. To address the challenge of in-depth utilizing SAM in
non-segmentation tasks like optical flow estimation, we propose an Optical Flow
Task-Specific Adaption scheme, including a Context Fusion Module to fuse the
SAM encoder with the optical flow context encoder, and a Context Adaption
Module to adapt the SAM features for optical flow task with Learned
Task-Specific Embedding. Our proposed SAMFlow model reaches 0.86/2.10
clean/final EPE and 3.55/12.32 EPE/F1-all on Sintel and KITTI-15 training set,
surpassing Flowformer by 8.5%/9.9% and 13.2%/16.3%. Furthermore, our model
achieves state-of-the-art performance on the Sintel and KITTI-15 benchmarks,
ranking #1 among all two-frame methods on Sintel clean pass.
- Abstract(参考訳): 光フロー推定は、2つのフレーム間の2次元密度運動場を求めることを目的としている。
モデル構造とトレーニングデータセットの制限のため、既存の手法はしばしば局所的な手がかりに頼りすぎ、オブジェクトの整合性を無視し、断片化された動き推定をもたらす。
理論解析により,事前学習された大視野モデルが光フロー推定に有用であることを見出し,最近有名になったsegment anything model (sam) が,フラグメンテーション問題を解決するのに適した完全物体を分割する強力な能力を示していることに気付いた。
そこで我々は,凍結したSAMイメージエンコーダをFlowFormerに埋め込んでオブジェクト認識を強化する方法を提案する。
本稿では,光フロー推定などの非セグメント化タスクにおいてSAMを奥行き利用することの課題に対処するため,光フローコンテキストエンコーダとSAMエンコーダを融合するContext Fusion Moduleと,光フロータスクのSAM特徴をLearted Task-Specific Embeddingで適応させるContext Adaption Moduleを含む光フロータスク特化適応スキームを提案する。
提案したSAMFlowモデルは,SintelおよびKITTI-15トレーニングセットで0.86/2.10クリーン/ファイナルEPEと3.55/12.32EPE/F1-allに達し,Flowformerの8.5%/9.9%,13.2%/16.3%を上回った。
さらに,本モデルでは,Sintel と KITTI-15 ベンチマークの最先端性能を達成し,Sintel のクリーンパスにおける2フレーム手法の上位にランクインした。
関連論文リスト
- A SAM-guided Two-stream Lightweight Model for Anomaly Detection [50.28310943263051]
我々は、教師なし異常検出(STLM)のためのSAM誘導2ストリーム軽量モデルを提案する。
MVTec ADベンチマークを用いて行った実験により,約16Mのパラメータを持ち,20msの推論時間を実現したSTLMは,最先端の手法と効果的に競合することが示された。
論文 参考訳(メタデータ) (2024-02-29T13:29:10Z) - Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - A Spatial-Temporal Dual-Mode Mixed Flow Network for Panoramic Video
Salient Object Detection [5.207048071888257]
本研究では,パノラマ映像の空間的流れとそれに対応する光学的流れを利用する時空間二重モード混合流れネットワーク(STDMMF-Net)を提案する。
多くの主観的および客観的な実験結果から,提案手法が最先端(SOTA)法よりも優れた検出精度を示すことが確認された。
提案手法の総合性能は, モデル推論, テスト時間, 複雑性, 一般化性能に要求されるメモリの点で優れている。
論文 参考訳(メタデータ) (2023-10-13T11:25:41Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - TransFlow: Transformer as Flow Learner [22.727953339383344]
本稿では,光フロー推定のためのトランスフォーマーアーキテクチャであるTransFlowを提案する。
フロー推定において、より正確な相関と信頼できるマッチングを提供する。
ダイナミックなシーンにおける長距離時間的関連を通して、フロー推定においてより妥協された情報を復元する。
論文 参考訳(メタデータ) (2023-04-23T03:11:23Z) - Semi-Supervised Learning of Optical Flow by Flow Supervisor [16.406213579356795]
そこで本研究では,事前学習したモデルに対して,地中真実の流れを伴わずに,目標データセットに適応するファインチューニング手法を提案する。
この設計は、従来の自己超越法よりも安定した収束と精度の向上を目的としている。
我々は,Sintel および KITTI ベンチマークにおける最先端光学フローモデルに対する有意義な改善を実現する。
論文 参考訳(メタデータ) (2022-07-21T06:11:52Z) - FAMINet: Learning Real-time Semi-supervised Video Object Segmentation
with Steepest Optimized Optical Flow [21.45623125216448]
半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオシーケンス内のいくつかの動くオブジェクトをセグメント化することを目的としており、これらのオブジェクトは第一フレームのアノテーションによって指定される。
光の流れは、セグメンテーションの精度を向上させるために、多くの既存の半教師付きVOS法で考慮されてきた。
本稿では,特徴抽出ネットワーク(F),外観ネットワーク(A),運動ネットワーク(M),統合ネットワーク(I)からなるFAMINetを提案する。
論文 参考訳(メタデータ) (2021-11-20T07:24:33Z) - ASFlow: Unsupervised Optical Flow Learning with Adaptive Pyramid
Sampling [26.868635622137106]
深層ピラミッドネットワークにおける適応型ピラミッドサンプリングを提案することにより,教師なし光フロー推定手法を提案する。
MPI-SIntel, KITTI 2012, KITTI 2015 など,複数の主要なベンチマークにおいて, 教師なし光フロー推定の最適性能を実現する。
論文 参考訳(メタデータ) (2021-04-08T07:22:35Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - FPCR-Net: Feature Pyramidal Correlation and Residual Reconstruction for
Optical Flow Estimation [72.41370576242116]
フレーム対からの光フロー推定のための半教師付き特徴ピラミッド相関・残留再構成ネットワーク(FPCR-Net)を提案する。
ピラミッド相関マッピングと残留再構成の2つの主要なモジュールで構成されている。
実験結果から,提案手法は,平均終点誤差 (AEE) に対して0.80, 1.15, 0.10の改善を達成し,最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2020-01-17T07:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。