論文の概要: Investigation of Frame Differences as Motion Cues for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2503.09132v1
- Date: Wed, 12 Mar 2025 07:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:12.699444
- Title: Investigation of Frame Differences as Motion Cues for Video Object Segmentation
- Title(参考訳): 映像オブジェクトセグメンテーションにおける動きキューとしてのフレーム差の検討
- Authors: Sota Kawamura, Hirotada Honda, Shugo Nakamura, Takashi Sano,
- Abstract要約: 動きキュー抽出における光フローの代替として,フレーム差を用いた手法を提案する。
本研究は,限られた計算資源を持つ場合の移動手段としてフレーム差を利用した場合の有用性を示唆するものである。
- 参考スコア(独自算出の注目度): 0.29998889086656577
- License:
- Abstract: Automatic Video Object Segmentation (AVOS) refers to the task of autonomously segmenting target objects in video sequences without relying on human-provided annotations in the first frames. In AVOS, the use of motion information is crucial, with optical flow being a commonly employed method for capturing motion cues. However, the computation of optical flow is resource-intensive, making it unsuitable for real-time applications, especially on edge devices with limited computational resources. In this study, we propose using frame differences as an alternative to optical flow for motion cue extraction. We developed an extended U-Net-like AVOS model that takes a frame on which segmentation is performed and a frame difference as inputs, and outputs an estimated segmentation map. Our experimental results demonstrate that the proposed model achieves performance comparable to the model with optical flow as an input, particularly when applied to videos captured by stationary cameras. Our results suggest the usefulness of employing frame differences as motion cues in cases with limited computational resources.
- Abstract(参考訳): AVOS (Automatic Video Object Segmentation) は、人為的アノテーションを第一フレームに頼らずに、対象物をビデオシーケンスで自律的にセグメント化するタスクである。
AVOSでは、モーション情報の利用が重要であり、光学フローはモーションキューをキャプチャするための一般的な方法である。
しかし、光学フローの計算は資源集約的であり、特に限られた計算資源を持つエッジデバイスにおいてリアルタイムアプリケーションには適さない。
本研究では,移動キュー抽出における光フローの代替として,フレーム差を用いた手法を提案する。
我々は,セグメント化を行うフレームと,フレーム差を入力として取り出す拡張U-NetライクなAVOSモデルを開発し,推定セグメント化マップを出力する。
実験の結果,静止カメラで撮影した映像に対して,光学的フローを入力とするモデルに匹敵する性能が得られた。
本研究は,限られた計算資源を持つ場合の移動手段としてフレーム差を利用した場合の有用性を示唆するものである。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Treating Motion as Option with Output Selection for Unsupervised Video
Object Segmentation [17.71871884366252]
ビデオオブジェクトセグメンテーション(VOS)は、オブジェクトに関する外部のガイダンスなしで、ビデオ内の最も健全なオブジェクトを検出することを目的としている。
近年,光学フローマップから抽出した動きキューとRGB画像から抽出した外観キューを協調的に利用する手法が提案されている。
本稿では,動作キューを任意に扱うことで,新たな動作・アズ・オプション・ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-26T09:34:13Z) - FODVid: Flow-guided Object Discovery in Videos [12.792602427704395]
我々は、個々の複雑さに過度に適合しないように、一般化可能なソリューションを構築することに注力する。
教師なしの環境でビデオオブジェクト(VOS)を解決するために,セグメント出力の導出に基づく新しいパイプライン(FODVid)を提案する。
論文 参考訳(メタデータ) (2023-07-10T07:55:42Z) - Flow-guided Semi-supervised Video Object Segmentation [14.357395825753827]
半教師付きビデオオブジェクトセグメンテーションのための光フロー誘導手法を提案する。
光フローと画像から組み合わせた情報を抽出するモデルを提案する。
DAVIS 2017とYouTube-VOS 2019の実験では、光学フローから抽出した情報を元のイメージブランチに統合することで、パフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2023-01-25T10:02:31Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。