Fugu-MT 論文翻訳(概要): Strike the Balance: On-the-Fly Uncertainty based User Interactions for Long-Term Video Object Segmentation

論文の概要: Strike the Balance: On-the-Fly Uncertainty based User Interactions for Long-Term Video Object Segmentation

arxiv url: http://arxiv.org/abs/2408.00169v2
Date: Tue, 12 Nov 2024 21:16:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.629707
Title: Strike the Balance: On-the-Fly Uncertainty based User Interactions for Long-Term Video Object Segmentation
Title（参考訳）: Strike the Balance: 長期ビデオオブジェクトセグメンテーションのためのオンザフライ不確実性に基づくユーザインタラクション
Authors: Stéphane Vujasinović, Stefan Becker, Sebastian Bullinger, Norbert Scherer-Negenborn, Michael Arens, Rainer Stiefelhagen,
Abstract要約: 本稿では,対話的かつ半自動的なアプローチを橋渡しするビデオオブジェクトセグメンテーション(VOS)について紹介する。関心対象の追跡期間を最大化しつつ,追跡期間の延長を最小限に抑えることを目的としている。我々は,最近導入されたLVOSデータセットを用いて,多数の長期ビデオを提供するアプローチを評価した。
参考スコア（独自算出の注目度）: 23.417370317522106
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this paper, we introduce a variant of video object segmentation (VOS) that bridges interactive and semi-automatic approaches, termed Lazy Video Object Segmentation (ziVOS). In contrast, to both tasks, which handle video object segmentation in an off-line manner (i.e., pre-recorded sequences), we propose through ziVOS to target online recorded sequences. Here, we strive to strike a balance between performance and robustness for long-term scenarios by soliciting user feedback's on-the-fly during the segmentation process. Hence, we aim to maximize the tracking duration of an object of interest, while requiring minimal user corrections to maintain tracking over an extended period. We propose a competitive baseline, i.e., Lazy-XMem, as a reference for future works in ziVOS. Our proposed approach uses an uncertainty estimation of the tracking state to determine whether a user interaction is necessary to refine the model's prediction. To quantitatively assess the performance of our method and the user's workload, we introduce complementary metrics alongside those already established in the field. We evaluate our approach using the recently introduced LVOS dataset, which offers numerous long-term videos. Our code is publicly available at https://github.com/Vujas-Eteph/LazyXMem.
Abstract（参考訳）: 本稿では,対話的かつ半自動的なアプローチを橋渡しするビデオオブジェクトセグメンテーション(VOS)について紹介する。対照的に、ビデオオブジェクトのセグメント化をオフラインで処理するタスク(例えば、事前記録されたシーケンス)については、ziVOSを通じてオンライン記録シーケンスをターゲットとして提案する。ここでは,セグメンテーションプロセス中にユーザフィードバックのオンザフライを要請することで,長期シナリオのパフォーマンスと堅牢性のバランスを保とうとしている。したがって,関心対象の追跡期間を最大化しつつ,追跡期間の延長を最小限に抑えることを目的としている。本稿では,ziVOSにおける今後の研究の参考として,競争力のあるベースライン,すなわちLazy-XMemを提案する。提案手法では,ユーザのインタラクションがモデルの予測を洗練するために必要かどうかを判断するために,追跡状態の不確実性推定を用いる。提案手法とユーザの作業負荷を定量的に評価するために,すでに確立されている指標と相補的な指標を導入する。我々は,最近導入されたLVOSデータセットを用いて,多数の長期ビデオを提供するアプローチを評価した。私たちのコードはhttps://github.com/Vujas-Eteph/LazyXMem.comで公開されています。

関連論文リスト

Training-Free Spatio-temporal Decoupled Reasoning Video Segmentation with Adaptive Object Memory [10.183518059286124]
Reasoning Video Object (VOS) は、ビデオシーケンス間で安定したオブジェクトセグメンテーションを必要とする難しいタスクである。従来のマルチモーダル大規模言語モデル(MLLM)を微調整してセグメンテーション出力を生成する手法は、かなりのリソースを必要とする。トレーニングフリーのtextbfStemporal textbfDecoupled Reasoning Video with textbfAdaptive Object bfMemory (SDAM) を提案する。提案手法は,Ref-YouTubeVOS,RefDAVIS17,MeViViS,ReasonVOS,Ref-YouTubeVOS,RefDAVIS17,ReasonVOSの5つのベンチマークデータセットに対して優れた結果を得る。
論文参考訳（メタデータ） (2026-03-02T07:15:41Z)
Non-Markovian Long-Horizon Robot Manipulation via Keyframe Chaining [56.62125584296097]
Keyframe-Chaining VLAは、キー履歴フレームを抽出し、長い水平依存関係をモデル化するフレームワークである。本研究では,現在の実行フェーズに対する時間的関連性に基づいて,動的に履歴フレームを検索する進捗対応機構を設計する。タスク成功率を測定するために,ManiSkillシミュレータ上に構築された4つの非マルコフ操作タスクスイートを紹介する。
論文参考訳（メタデータ） (2026-03-02T05:26:29Z)
Temporal Prompting Matters: Rethinking Referring Video Object Segmentation [64.82333675385802]
Referring Video Object (RVOS) は、クエリ文によって参照されるオブジェクトをビデオにセグメントすることを目的としている。既存のほとんどの方法は、密集したマスクアノテーションによるエンドツーエンドのトレーニングを必要とする。本稿では,参照要因とビデオ要因に対処するテンポラル・プロンプト生成・選択(テネ)フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-08T17:59:57Z)
Long-RVOS: A Comprehensive Benchmark for Long-term Referring Video Object Segmentation [31.48914479058998]
本稿では,長期参照オブジェクトセグメンテーションのための大規模ベンチマークであるLongtextbf-RVOSを紹介する。 Long-RVOSには、平均時間60秒を超える2,000以上のビデオが含まれており、さまざまなオブジェクトをカバーしている。フレーム単位の空間評価にのみ依存する従来のベンチマークとは異なり、時間的・時間的整合性を評価するために2つの指標を導入する。
論文参考訳（メタデータ） (2025-05-19T04:52:31Z)
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting [60.58915701973593]
CAT-V(Caption AnyThing in Video)は、オブジェクト中心のビデオキャプションを微粒化するためのトレーニング不要のフレームワークである。 Cat-Vは3つの重要なコンポーネントを統合している: SAMIに基づくフレーム間の正確なオブジェクトセグメンテーションのためのセグメンタ、TRACE-UniVLを動力とするテンポラルアナライザ、Intern-2.5を使用するキャピタ。我々のフレームワークは、追加のトレーニングデータを必要とすることなく、オブジェクトの属性、アクション、ステータス、インタラクション、環境コンテキストの詳細な時間的記述を生成します。
論文参考訳（メタデータ） (2025-04-07T22:35:36Z)
Scoring, Remember, and Reference: Catching Camouflaged Objects in Videos [24.03405963900272]
Video Camouflaged Object Detectionは、外見が周囲によく似ているオブジェクトを分割することを目的としている。既存の視覚モデルは、カモフラージュされた物体の識別不可能な外観のために、このようなシナリオでしばしば苦労する。人間の記憶認識にインスパイアされたエンドツーエンドのフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-21T11:08:14Z)
Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文参考訳（メタデータ） (2024-06-08T14:25:57Z)
Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文参考訳（メタデータ） (2024-04-09T12:44:34Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Learning the What and How of Annotation in Video Object Segmentation [11.012995995497029]
ビデオオブジェクト(VOS)は、ビデオ編集からビデオデータ生成まで、いくつかのアプリケーションにとって不可欠である。従来のアノテート手法では、ビデオフレームごとにターゲットオブジェクトに詳細なセグメンテーションマスクを描く必要がある。ビデオオブジェクトセグメンテーションのためのヒューマン・イン・ザ・ループアノテーションフレームワークであるEVA-VOSを提案する。
論文参考訳（メタデータ） (2023-11-08T00:56:31Z)
Object-centric Video Representation for Long-term Action Anticipation [33.115854386196126]
主な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し予測するための重要な手がかりを提供することである。我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。人間と物体の相互作用を認識し予測するために、Transformerベースのニューラルアーキテクチャを用いる。
論文参考訳（メタデータ） (2023-10-31T22:54:31Z)
Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文参考訳（メタデータ） (2022-03-14T17:55:41Z)
Learning Long-term Visual Dynamics with Region Proposal Interaction Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文参考訳（メタデータ） (2020-08-05T17:48:00Z)
Fast Video Object Segmentation With Temporal Aggregation Network and Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2020-07-11T05:44:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。