Fugu-MT 論文翻訳(概要): Moving Object Segmentation: All You Need Is SAM (and Flow)

論文の概要: Moving Object Segmentation: All You Need Is SAM (and Flow)

arxiv url: http://arxiv.org/abs/2404.12389v1
Date: Thu, 18 Apr 2024 17:59:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-19 11:52:23.127509
Title: Moving Object Segmentation: All You Need Is SAM (and Flow)
Title（参考訳）: 移動オブジェクトセグメンテーション:SAM(とフロー)だけ
Authors: Junyu Xie, Charig Yang, Weidi Xie, Andrew Zisserman,
Abstract要約: SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
参考スコア（独自算出の注目度）: 82.78026782967959
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The objective of this paper is motion segmentation -- discovering and segmenting the moving objects in a video. This is a much studied area with numerous careful,and sometimes complex, approaches and training schemes including: self-supervised learning, learning from synthetic datasets, object-centric representations, amodal representations, and many more. Our interest in this paper is to determine if the Segment Anything model (SAM) can contribute to this task. We investigate two models for combining SAM with optical flow that harness the segmentation power of SAM with the ability of flow to discover and group moving objects. In the first model, we adapt SAM to take optical flow, rather than RGB, as an input. In the second, SAM takes RGB as an input, and flow is used as a segmentation prompt. These surprisingly simple methods, without any further modifications, outperform all previous approaches by a considerable margin in both single and multi-object benchmarks. We also extend these frame-level segmentations to sequence-level segmentations that maintain object identity. Again, this simple model outperforms previous methods on multiple video object segmentation benchmarks.
Abstract（参考訳）: 本論文の目的は,動画中の移動物体の検出とセグメンテーションを行う動作セグメンテーションである。自己教師型学習、合成データセットからの学習、オブジェクト中心の表現、アモーダル表現、その他多くのものを含む。本論文の関心は,Segment Anything Model(SAM)がこの課題に貢献できるかどうかを判断することである。 SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。最初のモデルでは、RGBではなく光の流れを入力としてSAMを適応させる。第2に、SAMはRGBを入力とし、フローはセグメンテーションプロンプトとして使用される。これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。また、これらのフレームレベルのセグメンテーションを、オブジェクトのアイデンティティを保持するシーケンスレベルのセグメンテーションに拡張します。この単純なモデルは、複数のビデオオブジェクトセグメンテーションベンチマークにおいて、以前の手法よりも優れている。

関連論文リスト

Evaluating SAM2 for Video Semantic Segmentation [60.157605818225186]
Anything Model 2 (SAM2)は、画像とビデオの両方において、迅速な視覚オブジェクトのセグメンテーションのための強力な基盤モデルであることが証明されている。本稿では, SAM2 から高密度ビデオセマンティック (VSS) への拡張について検討する。我々の実験は、SAM2を利用することでVSSの全体的な性能が向上することを示唆している。
論文参考訳（メタデータ） (2025-12-01T15:15:16Z)
Correspondence as Video: Test-Time Adaption on SAM2 for Reference Segmentation in the Wild [38.94246183524246]
本稿では,参照対象画像ペア間の固有対応を擬似ビデオとして表現する手法を提案する。この観点により、SAM2として知られるSAMの最新バージョンは、ダウンストリームタスクに軽量に適応できる。我々はこのアプローチをSAM(CAV-SAM)のためのビデオとして対応づける。
論文参考訳（メタデータ） (2025-08-11T08:42:49Z)
Talk2SAM: Text-Guided Semantic Enhancement for Complex-Shaped Object Segmentation [0.0]
本研究では,オブジェクトセグメンテーションを改善するためにテキストガイダンスを統合する新しいアプローチであるTalk2SAMを提案する。ユーザが提供するテキストプロンプトから派生したCLIPベースの埋め込みを使用して、関連する意味領域を識別する。 Talk2SAMはSAM-HQを一貫して上回り、IoUは+5.9%、IoUは+8.3%である。
論文参考訳（メタデータ） (2025-06-03T19:53:10Z)
SOS: Segment Object System for Open-World Instance Segmentation With Object Priors [2.856781525749652]
画像中の任意の未知のオブジェクトを、訓練中に限定された注釈付きオブジェクトの集合から一般化することで分割する手法を提案する。提案手法はCOCO, LVIS, ADE20kデータセットに対して強力な一般化能力を示し, 最先端技術と比較して81.6%の精度向上を実現している。
論文参考訳（メタデータ） (2024-09-22T23:35:31Z)
From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。 SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。 SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文参考訳（メタデータ） (2024-08-12T17:17:35Z)
Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文参考訳（メタデータ） (2024-08-08T09:09:37Z)
FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。 2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文参考訳（メタデータ） (2024-05-29T02:34:13Z)
RAP-SAM: Towards Real-Time All-Purpose Segment Anything [120.17175256421622]
Segment Anything Model (SAM) は、一般化されたセグメンテーションを実現するための注目すべきモデルである。現在のリアルタイムセグメンテーションは、主に運転シーンのセグメンテーションのような1つの目的を持っている。本研究は、リアルタイムデプロイメントにおけるVFMの転送を実現するために、リアルタイムに全目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を提案する。
論文参考訳（メタデータ） (2024-01-18T18:59:30Z)
Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文参考訳（メタデータ） (2023-07-10T17:59:40Z)
Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文参考訳（メタデータ） (2022-07-05T17:59:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。