論文の概要: SAMFlow: Eliminating Any Fragmentation in Optical Flow with Segment
Anything Model
- arxiv url: http://arxiv.org/abs/2307.16586v4
- Date: Thu, 21 Dec 2023 07:03:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:46:37.084399
- Title: SAMFlow: Eliminating Any Fragmentation in Optical Flow with Segment
Anything Model
- Title(参考訳): samflow: segment anythingモデルによる光フローのフラグメンテーションの排除
- Authors: Shili Zhou, Ruian He, Weimin Tan and Bo Yan
- Abstract要約: 本研究では,凍結したSAMイメージエンコーダをFlowFormerに埋め込んでオブジェクト認識を強化する方法を提案する。
提案したSAMFlowモデルは,SintelおよびKITTI-15トレーニングセットで0.86/2.10クリーン/ファイナルEPEと3.55/12.32EPE/F1-allに達し,Flowformerの8.5%/9.9%,13.2%/16.3%を上回った。
- 参考スコア(独自算出の注目度): 17.88914104216893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical Flow Estimation aims to find the 2D dense motion field between two
frames. Due to the limitation of model structures and training datasets,
existing methods often rely too much on local clues and ignore the integrity of
objects, resulting in fragmented motion estimation. Through theoretical
analysis, we find the pre-trained large vision models are helpful in optical
flow estimation, and we notice that the recently famous Segment Anything Model
(SAM) demonstrates a strong ability to segment complete objects, which is
suitable for solving the fragmentation problem. We thus propose a solution to
embed the frozen SAM image encoder into FlowFormer to enhance object
perception. To address the challenge of in-depth utilizing SAM in
non-segmentation tasks like optical flow estimation, we propose an Optical Flow
Task-Specific Adaption scheme, including a Context Fusion Module to fuse the
SAM encoder with the optical flow context encoder, and a Context Adaption
Module to adapt the SAM features for optical flow task with Learned
Task-Specific Embedding. Our proposed SAMFlow model reaches 0.86/2.10
clean/final EPE and 3.55/12.32 EPE/F1-all on Sintel and KITTI-15 training set,
surpassing Flowformer by 8.5%/9.9% and 13.2%/16.3%. Furthermore, our model
achieves state-of-the-art performance on the Sintel and KITTI-15 benchmarks,
ranking #1 among all two-frame methods on Sintel clean pass.
- Abstract(参考訳): 光フロー推定は、2つのフレーム間の2次元密度運動場を求めることを目的としている。
モデル構造とトレーニングデータセットの制限のため、既存の手法はしばしば局所的な手がかりに頼りすぎ、オブジェクトの整合性を無視し、断片化された動き推定をもたらす。
理論解析により,事前学習された大視野モデルが光フロー推定に有用であることを見出し,最近有名になったsegment anything model (sam) が,フラグメンテーション問題を解決するのに適した完全物体を分割する強力な能力を示していることに気付いた。
そこで我々は,凍結したSAMイメージエンコーダをFlowFormerに埋め込んでオブジェクト認識を強化する方法を提案する。
本稿では,光フロー推定などの非セグメント化タスクにおいてSAMを奥行き利用することの課題に対処するため,光フローコンテキストエンコーダとSAMエンコーダを融合するContext Fusion Moduleと,光フロータスクのSAM特徴をLearted Task-Specific Embeddingで適応させるContext Adaption Moduleを含む光フロータスク特化適応スキームを提案する。
提案したSAMFlowモデルは,SintelおよびKITTI-15トレーニングセットで0.86/2.10クリーン/ファイナルEPEと3.55/12.32EPE/F1-allに達し,Flowformerの8.5%/9.9%,13.2%/16.3%を上回った。
さらに,本モデルでは,Sintel と KITTI-15 ベンチマークの最先端性能を達成し,Sintel のクリーンパスにおける2フレーム手法の上位にランクインした。
関連論文リスト
- UnSAMFlow: Unsupervised Optical Flow Guided by Segment Anything Model [12.706915226843401]
UnSAMFlowは教師なしのフローネットワークで、最新の基盤モデルSegment Anything Model(SAM)のオブジェクト情報も活用している。
従来の滑らかさ損失の勾配の低さを解析し,その代わりにホモグラフィに基づく新しい滑らかさ定義を提案する。
KITTIとSintelのデータセットにおける最先端の手法よりも高い精度で、物体の周囲の鋭い境界で透明な光フロー推定を行う。
論文 参考訳(メタデータ) (2024-05-04T08:27:12Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - SciFlow: Empowering Lightweight Optical Flow Models with Self-Cleaning Iterations [44.92134227376008]
本稿では,SCI(Self-Cleaning Iteration)とRFL(Regression Focal Loss)の2つの相乗的手法を紹介する。
SCIとRFLは、反復洗練された光学流モデルにおいて、特に誤差伝播の緩和に有効である。
今回提案したSCIおよびRFL技術の有効性は,2つの異なる光フローモデルアーキテクチャで実証された。
論文 参考訳(メタデータ) (2024-04-11T21:41:55Z) - A SAM-guided Two-stream Lightweight Model for Anomaly Detection [50.28310943263051]
我々は、教師なし異常検出(STLM)のためのSAM誘導2ストリーム軽量モデルを提案する。
MVTec ADベンチマークを用いて行った実験により,約16Mのパラメータを持ち,20msの推論時間を実現したSTLMは,最先端の手法と効果的に競合することが示された。
論文 参考訳(メタデータ) (2024-02-29T13:29:10Z) - A Spatial-Temporal Dual-Mode Mixed Flow Network for Panoramic Video
Salient Object Detection [5.207048071888257]
本研究では,パノラマ映像の空間的流れとそれに対応する光学的流れを利用する時空間二重モード混合流れネットワーク(STDMMF-Net)を提案する。
多くの主観的および客観的な実験結果から,提案手法が最先端(SOTA)法よりも優れた検出精度を示すことが確認された。
提案手法の総合性能は, モデル推論, テスト時間, 複雑性, 一般化性能に要求されるメモリの点で優れている。
論文 参考訳(メタデータ) (2023-10-13T11:25:41Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - FAMINet: Learning Real-time Semi-supervised Video Object Segmentation
with Steepest Optimized Optical Flow [21.45623125216448]
半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオシーケンス内のいくつかの動くオブジェクトをセグメント化することを目的としており、これらのオブジェクトは第一フレームのアノテーションによって指定される。
光の流れは、セグメンテーションの精度を向上させるために、多くの既存の半教師付きVOS法で考慮されてきた。
本稿では,特徴抽出ネットワーク(F),外観ネットワーク(A),運動ネットワーク(M),統合ネットワーク(I)からなるFAMINetを提案する。
論文 参考訳(メタデータ) (2021-11-20T07:24:33Z) - ASFlow: Unsupervised Optical Flow Learning with Adaptive Pyramid
Sampling [26.868635622137106]
深層ピラミッドネットワークにおける適応型ピラミッドサンプリングを提案することにより,教師なし光フロー推定手法を提案する。
MPI-SIntel, KITTI 2012, KITTI 2015 など,複数の主要なベンチマークにおいて, 教師なし光フロー推定の最適性能を実現する。
論文 参考訳(メタデータ) (2021-04-08T07:22:35Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - FPCR-Net: Feature Pyramidal Correlation and Residual Reconstruction for
Optical Flow Estimation [72.41370576242116]
フレーム対からの光フロー推定のための半教師付き特徴ピラミッド相関・残留再構成ネットワーク(FPCR-Net)を提案する。
ピラミッド相関マッピングと残留再構成の2つの主要なモジュールで構成されている。
実験結果から,提案手法は,平均終点誤差 (AEE) に対して0.80, 1.15, 0.10の改善を達成し,最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2020-01-17T07:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。