Fugu-MT 論文翻訳(概要): SAMFlow: Eliminating Any Fragmentation in Optical Flow with Segment Anything Model

論文の概要: SAMFlow: Eliminating Any Fragmentation in Optical Flow with Segment Anything Model

arxiv url: http://arxiv.org/abs/2307.16586v1
Date: Mon, 31 Jul 2023 11:40:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 14:39:14.900795
Title: SAMFlow: Eliminating Any Fragmentation in Optical Flow with Segment Anything Model
Title（参考訳）: samflow: segment anythingモデルによる光フローのフラグメンテーションの排除
Authors: Shili Zhou, Ruian He, Weimin Tan and Bo Yan
Abstract要約: 本研究では,凍結したSAMイメージエンコーダをFlowFormerに埋め込んでオブジェクト認識を強化する方法を提案する。提案したSAMFlowモデルは,SintelおよびKITTI-15トレーニングセットで0.86/2.10クリーン/ファイナルEPEと3.55/12.32EPE/F1-allに達し,Flowformerの8.5%/9.9%,13.2%/16.3%を上回った。
参考スコア（独自算出の注目度）: 15.7336942866417
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Optical flow estimation aims to find the 2D dense motion field between two frames. Due to the limitation of model structures and training datasets, existing methods often rely too much on local clues and ignore the integrity of objects, resulting in fragmented motion estimation. We notice that the recently famous Segment Anything Model (SAM) demonstrates a strong ability to segment complete objects, which is suitable for solving the fragmentation problem in optical flow estimation. We thus propose a solution to embed the frozen SAM image encoder into FlowFormer to enhance object perception. To address the challenge of in-depth utilizing SAM in non-segmentation tasks like optical flow estimation, we propose an Optical Flow Task-Specific Adaption scheme, including a Context Fusion Module to fuse the SAM encoder with the optical flow context encoder, and a Context Adaption Module to adapt the SAM features for optical flow task with Learned Task-Specific Embedding. Our proposed SAMFlow model reaches 0.86/2.10 clean/final EPE and 3.55/12.32 EPE/F1-all on Sintel and KITTI-15 training set, surpassing Flowformer by 8.5%/9.9% and 13.2%/16.3%. Furthermore, our model achieves state-of-the-art performance on the Sintel and KITTI-15 benchmarks, ranking #1 among all two-frame methods on Sintel clean pass.
Abstract（参考訳）: 光フロー推定は、2つのフレーム間の2次元密度運動場を求めることを目的としている。モデル構造とトレーニングデータセットの制限のため、既存の手法はしばしば局所的な手がかりに頼りすぎ、オブジェクトの整合性を無視し、断片化された動き推定をもたらす。最近有名になったsegment anything model(sam)は、光学フロー推定におけるフラグメンテーション問題を解決するのに適した完全なオブジェクトをセグメント化する強力な能力を示している。そこで我々は,凍結したSAMイメージエンコーダをFlowFormerに埋め込んでオブジェクト認識を強化する方法を提案する。本稿では,光フロー推定などの非セグメント化タスクにおいてSAMを奥行き利用することの課題に対処するため,光フローコンテキストエンコーダとSAMエンコーダを融合するContext Fusion Moduleと,光フロータスクのSAM特徴をLearted Task-Specific Embeddingで適応させるContext Adaption Moduleを含む光フロータスク特化適応スキームを提案する。提案したSAMFlowモデルは,SintelおよびKITTI-15トレーニングセットで0.86/2.10クリーン/ファイナルEPEと3.55/12.32EPE/F1-allに達し,Flowformerの8.5%/9.9%,13.2%/16.3%を上回った。さらに,本モデルでは,Sintel と KITTI-15 ベンチマークの最先端性能を達成し,Sintel のクリーンパスにおける2フレーム手法の上位にランクインした。

関連論文リスト

SAM2-UNeXT: An Improved High-Resolution Baseline for Adapting Foundation Models to Downstream Segmentation Tasks [50.97089872043121]
SAM2-UNeXTはSAM2-UNetの中核となる原理を基盤とした高度なフレームワークである。我々は、補助的なDINOv2エンコーダの統合によりSAM2の表現能力を拡張する。我々のアプローチは、単純なアーキテクチャでより正確なセグメンテーションを可能にし、複雑なデコーダ設計の必要性を緩和する。
論文参考訳（メタデータ） (2025-08-05T15:36:13Z)
DPFlow: Adaptive Optical Flow Estimation with a Dual-Pyramid Framework [57.69159159559054]
最大8Kの解像度入力を一般化できる適応型光フローアーキテクチャDPFlowを提案する。また,1Kから8Kまでの入力解像度を持つ光フロー評価のための新しいベンチマークであるKubric-NKを紹介する。
論文参考訳（メタデータ） (2025-03-19T04:18:18Z)
UnSAMFlow: Unsupervised Optical Flow Guided by Segment Anything Model [12.706915226843401]
UnSAMFlowは教師なしのフローネットワークで、最新の基盤モデルSegment Anything Model(SAM)のオブジェクト情報も活用している。従来の滑らかさ損失の勾配の低さを解析し,その代わりにホモグラフィに基づく新しい滑らかさ定義を提案する。 KITTIとSintelのデータセットにおける最先端の手法よりも高い精度で、物体の周囲の鋭い境界で透明な光フロー推定を行う。
論文参考訳（メタデータ） (2024-05-04T08:27:12Z)
MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文参考訳（メタデータ） (2024-04-24T07:38:14Z)
Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文参考訳（メタデータ） (2024-04-18T17:59:53Z)
SciFlow: Empowering Lightweight Optical Flow Models with Self-Cleaning Iterations [44.92134227376008]
本稿では,SCI(Self-Cleaning Iteration)とRFL(Regression Focal Loss)の2つの相乗的手法を紹介する。 SCIとRFLは、反復洗練された光学流モデルにおいて、特に誤差伝播の緩和に有効である。今回提案したSCIおよびRFL技術の有効性は,2つの異なる光フローモデルアーキテクチャで実証された。
論文参考訳（メタデータ） (2024-04-11T21:41:55Z)
A Spatial-Temporal Dual-Mode Mixed Flow Network for Panoramic Video Salient Object Detection [5.207048071888257]
本研究では,パノラマ映像の空間的流れとそれに対応する光学的流れを利用する時空間二重モード混合流れネットワーク(STDMMF-Net)を提案する。多くの主観的および客観的な実験結果から,提案手法が最先端(SOTA)法よりも優れた検出精度を示すことが確認された。提案手法の総合性能は, モデル推論, テスト時間, 複雑性, 一般化性能に要求されるメモリの点で優れている。
論文参考訳（メタデータ） (2023-10-13T11:25:41Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文参考訳（メタデータ） (2023-05-11T02:02:53Z)
ASFlow: Unsupervised Optical Flow Learning with Adaptive Pyramid Sampling [26.868635622137106]
深層ピラミッドネットワークにおける適応型ピラミッドサンプリングを提案することにより,教師なし光フロー推定手法を提案する。 MPI-SIntel, KITTI 2012, KITTI 2015 など,複数の主要なベンチマークにおいて, 教師なし光フロー推定の最適性能を実現する。
論文参考訳（メタデータ） (2021-04-08T07:22:35Z)
Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文参考訳（メタデータ） (2021-03-04T12:45:18Z)
FPCR-Net: Feature Pyramidal Correlation and Residual Reconstruction for Optical Flow Estimation [72.41370576242116]
フレーム対からの光フロー推定のための半教師付き特徴ピラミッド相関・残留再構成ネットワーク(FPCR-Net)を提案する。ピラミッド相関マッピングと残留再構成の2つの主要なモジュールで構成されている。実験結果から,提案手法は,平均終点誤差 (AEE) に対して0.80, 1.15, 0.10の改善を達成し,最先端性能を実現していることがわかった。
論文参考訳（メタデータ） (2020-01-17T07:13:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。