Fugu-MT 論文翻訳(概要): Submodular video object proposal selection for semantic object segmentation

論文の概要: Submodular video object proposal selection for semantic object segmentation

arxiv url: http://arxiv.org/abs/2407.05913v1
Date: Mon, 8 Jul 2024 13:18:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 15:40:39.091474
Title: Submodular video object proposal selection for semantic object segmentation
Title（参考訳）: 意味オブジェクトセグメンテーションのためのサブモジュールビデオオブジェクトの提案
Authors: Tinghuai Wang,
Abstract要約: 連続的なフレームから複数のインスタンスのサブセットをキャプチャするデータ駆動表現を学習する。この選択過程は、部分モジュラ函数を最大化することによって解決される施設位置問題として定式化される。本手法は,ロバストなセマンティックなビデオオブジェクトセグメンテーションアルゴリズムの基盤となる,長期的コンテキスト依存を検索する。
参考スコア（独自算出の注目度）: 1.223779595809275
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning a data-driven spatio-temporal semantic representation of the objects is the key to coherent and consistent labelling in video. This paper proposes to achieve semantic video object segmentation by learning a data-driven representation which captures the synergy of multiple instances from continuous frames. To prune the noisy detections, we exploit the rich information among multiple instances and select the discriminative and representative subset. This selection process is formulated as a facility location problem solved by maximising a submodular function. Our method retrieves the longer term contextual dependencies which underpins a robust semantic video object segmentation algorithm. We present extensive experiments on a challenging dataset that demonstrate the superior performance of our approach compared with the state-of-the-art methods.
Abstract（参考訳）: データ駆動によるオブジェクトの時空間意味表現を学習することは、ビデオにおける一貫性と一貫性のあるラベリングの鍵となる。本稿では,連続したフレームから複数のインスタンスのシナジーをキャプチャするデータ駆動表現を学習し,セマンティックなビデオオブジェクトセグメンテーションを実現することを提案する。ノイズを検出するために、複数のインスタンス間のリッチな情報を活用し、識別的および代表的サブセットを選択する。この選択過程は、部分モジュラ函数を最大化することによって解決される施設位置問題として定式化される。本手法は,ロバストなセマンティックなビデオオブジェクトセグメンテーションアルゴリズムの基盤となる,長期的コンテキスト依存を検索する。我々は、最先端の手法と比較して、我々のアプローチの優れた性能を示す挑戦的なデータセットに関する広範な実験を行った。

関連論文リスト

Learning Motion and Temporal Cues for Unsupervised Video Object Segmentation [49.113131249753714]
本稿では,動きと時間的手がかりを同時に活用する,MTNetと呼ばれる効率的なアルゴリズムを提案する。 MTNetは、エンコーダ内の特徴抽出過程において、外観と動作の特徴を効果的にマージすることによって考案される。派生した機能を最適に活用するために、すべての機能レベルのデコーダのカスケードを使用します。
論文参考訳（メタデータ） (2025-01-14T03:15:46Z)
Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文参考訳（メタデータ） (2024-07-10T15:36:00Z)
Context Propagation from Proposals for Semantic Video Object Segmentation [1.223779595809275]
本稿では,意味オブジェクトセグメンテーションのためのビデオにおける意味的文脈関係を学習するための新しいアプローチを提案する。提案手法は,オブジェクトのキー進化と意味時間領域上のオブジェクト間の関係をエンコードするビデオオブジェクトから,セマンティックコンテキストを導出する。
論文参考訳（メタデータ） (2024-07-08T14:44:18Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文参考訳（メタデータ） (2023-08-16T17:58:34Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文参考訳（メタデータ） (2022-07-05T17:59:43Z)
Tag-Based Attention Guided Bottom-Up Approach for Video Instance Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文参考訳（メタデータ） (2022-04-22T15:32:46Z)
SynthRef: Generation of Synthetic Referring Expressions for Object Segmentation [7.690965189591581]
ビデオオブジェクトセグメンテーションのための合成参照表現を用いた最初の大規模データセットを提示・配布する。実験により, 合成参照表現を用いて学習することにより, モデルが様々なデータセットにまたがって一般化する能力を向上できることが実証された。
論文参考訳（メタデータ） (2021-06-08T14:28:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。