Fugu-MT 論文翻訳(概要): ALBA : Reinforcement Learning for Video Object Segmentation

論文の概要: ALBA : Reinforcement Learning for Video Object Segmentation

arxiv url: http://arxiv.org/abs/2005.13039v2
Date: Fri, 14 Aug 2020 07:09:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-29 00:22:53.148120
Title: ALBA : Reinforcement Learning for Video Object Segmentation
Title（参考訳）: ALBA : ビデオオブジェクトセグメンテーションのための強化学習
Authors: Shreyank N Gowda, Panagiotis Eustratiadis, Timothy Hospedales, Laura Sevilla-Lara
Abstract要約: ゼロショットビデオオブジェクトセグメンテーション(VOS)の課題について考察する。我々はこれを、オブジェクトの提案を活用し、空間と時間の両方でグループ化に関する共同推論を行うことによって、グループ化問題として扱う。提案手法はALBAと呼ばれ,従来の3つのベンチマークよりも優れていた。
参考スコア（独自算出の注目度）: 11.29255792513528
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the challenging problem of zero-shot video object segmentation (VOS). That is, segmenting and tracking multiple moving objects within a video fully automatically, without any manual initialization. We treat this as a grouping problem by exploiting object proposals and making a joint inference about grouping over both space and time. We propose a network architecture for tractably performing proposal selection and joint grouping. Crucially, we then show how to train this network with reinforcement learning so that it learns to perform the optimal non-myopic sequence of grouping decisions to segment the whole video. Unlike standard supervised techniques, this also enables us to directly optimize for the non-differentiable overlap-based metrics used to evaluate VOS. We show that the proposed method, which we call ALBA outperforms the previous stateof-the-art on three benchmarks: DAVIS 2017 [2], FBMS [20] and Youtube-VOS [27].
Abstract（参考訳）: ゼロショットビデオオブジェクトセグメンテーション(VOS)の課題について考察する。つまり、手動で初期化することなく、ビデオ内の複数の動くオブジェクトを完全に自動的にセグメンテーションして追跡する。我々はこれを,オブジェクトの提案を活用し,空間と時間の両面でグループ化に関する共同推論を行うことで,グループ化問題として扱う。本稿では,提案選択と共同グルーピングを行うネットワークアーキテクチャを提案する。重要なことは、このネットワークを強化学習でトレーニングする方法を示し、ビデオ全体をセグメンテーションするグループ決定の最適な非ミオピックシーケンスを実行することを学習する。標準的な教師付き手法とは異なり、VOSを評価するために使われる非微分不可能な重複ベースのメトリクスを直接最適化することができる。 DAVIS 2017 [2], FBMS [20], Youtube-VOS [27] の3つのベンチマークにおいて, ALBAと呼ばれる提案手法が先行技術よりも優れていることを示す。

関連論文リスト

ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts [64.93416171745693]
ビデオオブジェクトの推論は難しいタスクであり、入力ビデオと暗黙の複雑なテキストクエリからマスクシーケンスを生成する。既存の作業は、セグメント化に基づく出力のためにMLLM(Multimodal Large Language Model)を微調整することでこの問題を調査するが、時間に敏感なクエリが与えられたビデオでは難しいケースでは依然として不足している。 MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用してこれらの課題に対処する新しいフレームワークであるThinkVideoを提案する。
論文参考訳（メタデータ） (2025-05-24T07:01:31Z)
1st Place Solution for 5th LSVOS Challenge: Referring Video Object Segmentation [65.45702890457046]
主要なRVOSモデルの強みを統合して、効果的なパラダイムを構築します。マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。第5回大規模ビデオオブジェクトチャレンジ(ICCV 2023)トラック3位にランクインしたRef-Youtube-VOS検証セットで75.7%,テストセットで70%のJ&Fを達成した。
論文参考訳（メタデータ） (2024-01-01T04:24:48Z)
FODVid: Flow-guided Object Discovery in Videos [12.792602427704395]
我々は、個々の複雑さに過度に適合しないように、一般化可能なソリューションを構築することに注力する。教師なしの環境でビデオオブジェクト(VOS)を解決するために,セグメント出力の導出に基づく新しいパイプライン(FODVid)を提案する。
論文参考訳（メタデータ） (2023-07-10T07:55:42Z)
The Second Place Solution for The 4th Large-scale Video Object Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文参考訳（メタデータ） (2022-06-24T02:15:06Z)
A Unified Transformer Framework for Group-based Segmentation: Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。 UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文参考訳（メタデータ） (2022-03-09T13:35:19Z)
Box Supervised Video Segmentation Proposal Network [3.384080569028146]
本稿では,本質的な映像特性を生かしたボックス管理型映像オブジェクト分割提案ネットワークを提案する。提案手法は,最先端の自己監督ベンチマークを16.4%,6.9%上回る性能を示した。提案手法のロバスト性を実証し,データセットに対する広範なテストと改善を行った。
論文参考訳（メタデータ） (2022-02-14T20:38:28Z)
Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文参考訳（メタデータ） (2021-06-02T10:26:13Z)
Target-Aware Object Discovery and Association for Unsupervised Video Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。より正確で効率的な時間区分のための新しいアプローチを紹介します。 DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2021-04-10T14:39:44Z)
Temporally-Weighted Hierarchical Clustering for Unsupervised Action Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文参考訳（メタデータ） (2021-03-20T23:30:01Z)
Unsupervised Learning of Video Representations via Dense Trajectory Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文参考訳（メタデータ） (2020-06-28T22:23:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。