論文の概要: RefVOS: A Closer Look at Referring Expressions for Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2010.00263v1
- Date: Thu, 1 Oct 2020 09:10:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 08:20:57.922923
- Title: RefVOS: A Closer Look at Referring Expressions for Video Object
Segmentation
- Title(参考訳): refvos: ビデオオブジェクトのセグメンテーションのための参照表現をよく見る
- Authors: Miriam Bellver, Carles Ventura, Carina Silberer, Ioannis Kazakos,
Jordi Torres and Xavier Giro-i-Nieto
- Abstract要約: 我々は,新しいニューラルネットワークを用いて,言語誘導型VOSにおける言語誘導型画像セグメンテーションの結果と技術結果の状態を解析する。
本研究は,タスクの大きな課題が動作や静的動作の理解に関連していることを示唆する。
- 参考スコア(独自算出の注目度): 8.80595950124721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of video object segmentation with referring expressions
(language-guided VOS) is to, given a linguistic phrase and a video, generate
binary masks for the object to which the phrase refers. Our work argues that
existing benchmarks used for this task are mainly composed of trivial cases, in
which referents can be identified with simple phrases. Our analysis relies on a
new categorization of the phrases in the DAVIS-2017 and Actor-Action datasets
into trivial and non-trivial REs, with the non-trivial REs annotated with seven
RE semantic categories. We leverage this data to analyze the results of RefVOS,
a novel neural network that obtains competitive results for the task of
language-guided image segmentation and state of the art results for
language-guided VOS. Our study indicates that the major challenges for the task
are related to understanding motion and static actions.
- Abstract(参考訳): 参照表現(言語誘導VOS)を用いたビデオオブジェクトセグメンテーションの課題は、言語句とビデオが与えられた場合、そのフレーズが参照するオブジェクトのバイナリマスクを生成することである。
このタスクに使用される既存のベンチマークは主に自明なケースで構成されており、参照を単純なフレーズで識別できる。
我々の分析は、davis-2017とアクタ-アクションデータセットにおけるフレーズの新たな分類に依拠しており、非自明なresは7つのre意味カテゴリでアノテートされている。
我々はこのデータを利用して、言語誘導画像セグメンテーションのタスクと言語誘導VOSのアート結果の状態の競合結果を得る新しいニューラルネットワークであるRefVOSの結果を分析する。
本研究は,タスクの主な課題が動作や静的動作の理解にあることを示す。
関連論文リスト
- VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes [11.575313825919205]
参照音声・視覚的伝統(Ref-AVS)と呼ばれる新しいタスクを導入する。
Ref-AVSはマルチモーダルキューを含む式に基づいてオブジェクトをセグメント化する。
本稿では,マルチモーダルキューを適切に活用し,正確なセグメンテーションガイダンスを提供する手法を提案する。
論文 参考訳(メタデータ) (2024-07-15T17:54:45Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Towards Robust Referring Video Object Segmentation with Cyclic
Relational Consensus [42.14174599341824]
Referring Video Object (R-VOS) は、言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした課題である。
既存のほとんどのR-VOSメソッドは重要な仮定を持ち、参照されるオブジェクトはビデオに表示されなければならない。
本研究では,意味的ミスマッチを扱えるロバストなR-VOSモデルの必要性を強調した。
論文 参考訳(メタデータ) (2022-07-04T05:08:09Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Boundary Knowledge Translation based Reference Semantic Segmentation [62.60078935335371]
視覚境界知識翻訳を行うための参照参照セグメンテーションネットワーク(Ref-Net)を導入する。
人間の認識機構にインスパイアされたRTMTMは、参照オブジェクトの特徴に基づいて、同じカテゴリオブジェクトをセグメント化するだけに考案されている。
Ref-Netは、数十の細かい注釈付きサンプルをガイダンスとして、完全に教師された6つのデータセットのメソッドと同等の結果を得る。
論文 参考訳(メタデータ) (2021-08-01T07:40:09Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - ClawCraneNet: Leveraging Object-level Relation for Text-based Video
Segmentation [47.7867284770227]
テキストベースのビデオセグメンテーションは、ビデオ内の自然言語参照オブジェクトをセグメンテーションする難しいタスクである。
言語指導でオブジェクトを人間に分割する方法を模倣することで、新しいトップダウンアプローチを導入する。
我々の手法は最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-03-19T09:31:08Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。