論文の概要: Fully Transformer-Equipped Architecture for End-to-End Referring Video
Object Segmentation
- arxiv url: http://arxiv.org/abs/2309.11933v1
- Date: Thu, 21 Sep 2023 09:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 16:02:47.385327
- Title: Fully Transformer-Equipped Architecture for End-to-End Referring Video
Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションのエンドツーエンド化のためのフルトランスフォーマーアーキテクチャ
- Authors: Ping Li and Yu Zhang and Li Yuan and Xianghua Xu
- Abstract要約: 本稿では,RVOSタスクをマスクシーケンス学習問題として扱うエンドツーエンドのRVOSフレームワークを提案する。
オブジェクトレベルの空間コンテキストをキャプチャするために,Stacked Transformerを開発した。
このモデルは、マスクシーケンスとテキストクエリの最適なマッチングを見つける。
- 参考スコア(独自算出の注目度): 24.814534011440877
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Referring Video Object Segmentation (RVOS) requires segmenting the object in
video referred by a natural language query. Existing methods mainly rely on
sophisticated pipelines to tackle such cross-modal task, and do not explicitly
model the object-level spatial context which plays an important role in
locating the referred object. Therefore, we propose an end-to-end RVOS
framework completely built upon transformers, termed \textit{Fully
Transformer-Equipped Architecture} (FTEA), which treats the RVOS task as a mask
sequence learning problem and regards all the objects in video as candidate
objects. Given a video clip with a text query, the visual-textual features are
yielded by encoder, while the corresponding pixel-level and word-level features
are aligned in terms of semantic similarity. To capture the object-level
spatial context, we have developed the Stacked Transformer, which individually
characterizes the visual appearance of each candidate object, whose feature map
is decoded to the binary mask sequence in order directly. Finally, the model
finds the best matching between mask sequence and text query. In addition, to
diversify the generated masks for candidate objects, we impose a diversity loss
on the model for capturing more accurate mask of the referred object. Empirical
studies have shown the superiority of the proposed method on three benchmarks,
e.g., FETA achieves 45.1% and 38.7% in terms of mAP on A2D Sentences (3782
videos) and J-HMDB Sentences (928 videos), respectively; it achieves 56.6% in
terms of $\mathcal{J\&F}$ on Ref-YouTube-VOS (3975 videos and 7451 objects).
Particularly, compared to the best candidate method, it has a gain of 2.1% and
3.2% in terms of P$@$0.5 on the former two, respectively, while it has a gain
of 2.9% in terms of $\mathcal{J}$ on the latter one.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)を参照するには、自然言語クエリによって参照されるビデオ内のオブジェクトをセグメント化する必要がある。
既存の手法は主に、そのようなクロスモーダルなタスクに取り組むための洗練されたパイプラインに依存しており、参照オブジェクトの配置において重要な役割を果たすオブジェクトレベルの空間コンテキストを明示的にモデル化していない。
そこで本稿では,ビデオ中のすべてのオブジェクトを候補オブジェクトとして扱い,RVOSタスクをマスクシーケンス学習問題として扱う,変換器をベースとしたエンドツーエンドの RVOS フレームワークをFTEA (textit{Fully Transformer-Equipped Architecture}) と呼ぶ。
テキストクエリを備えたビデオクリップが与えられると、視覚的テキスト特徴はエンコーダによって獲得され、対応するピクセルレベルとワードレベルの特徴は意味的類似性の観点から整列される。
オブジェクトレベルの空間的コンテキストをキャプチャするために,各候補オブジェクトの視覚的外観を個別に特徴付けるスタック変換器を開発した。
最後に、モデルがマスクシーケンスとテキストクエリの最適なマッチングを見つける。
さらに,対象物に対する生成マスクの多様化を図るため,対象物のより正確なマスクを捉えるために,モデルに多様性損失を課す。
fetaはa2d文(3782ビデオ)とj-hmdb文(928ビデオ)の地図で45.1%と38.7%を達成し、ref-youtube-vos(3975ビデオと7451オブジェクト)で$\mathcal{j\&f}$の56.6%を達成した。
特に、最も優れた候補法と比較して、前者 2 では P$@$0.5 でそれぞれ 2.1% と 3.2% のゲインを持ち、後者では $\mathcal{J}$ で 2.9% のゲインを持つ。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - 1st Place Solution for 5th LSVOS Challenge: Referring Video Object
Segmentation [65.45702890457046]
主要なRVOSモデルの強みを統合して、効果的なパラダイムを構築します。
マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。
第5回大規模ビデオオブジェクトチャレンジ(ICCV 2023)トラック3位にランクインしたRef-Youtube-VOS検証セットで75.7%,テストセットで70%のJ&Fを達成した。
論文 参考訳(メタデータ) (2024-01-01T04:24:48Z) - 1st Place Solution for YouTubeVOS Challenge 2022: Referring Video Object
Segmentation [12.100628128028385]
言語記述と強く相関するマス列を得るための1段法ReferFormerの改良を行った。
我々は,映像オブジェクト分割モデルの優れた性能を活用し,マスク結果の品質と時間的一貫性をさらに向上させる。
我々のシングルモデルは、Referring Youtube-VOS検証セットで70.3J&F、テストセットで63.0に達し、CVPR2022 Referring Youtube-VOSチャレンジで1位にランクインした。
論文 参考訳(メタデータ) (2022-12-27T09:22:45Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Towards Robust Video Object Segmentation with Adaptive Object
Calibration [18.094698623128146]
ビデオオブジェクトセグメンテーション(VOS)は、参照フレームの注釈付きオブジェクトマスクを与えられたビデオのすべてのターゲットフレームにおけるオブジェクトのセグメンテーションを目的としている。
本稿では,オブジェクト表現を適応的に構築し,オブジェクトマスクを校正して強靭性を実現する,新しいディープネットワークを提案する。
本モデルは,既存の出版作品の最先端性能を達成し,摂動に対する優れた堅牢性を示す。
論文 参考訳(メタデータ) (2022-07-02T17:51:29Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Local-Global Context Aware Transformer for Language-Guided Video
Segmentation [103.35509224722097]
言語誘導ビデオセグメンテーション(LVS)の課題について検討する。
そこで我々は,Transformerアーキテクチャを有限メモリで拡張し,動画全体を言語表現で効率的にクエリするLocaterを提案する。
LVSモデルの視覚的接地能力を徹底的に検討するため、新しいLVSデータセットであるA2D-S+をA2D-Sデータセット上に構築する。
論文 参考訳(メタデータ) (2022-03-18T07:35:26Z) - Language as Queries for Referring Video Object Segmentation [23.743637144137498]
参照ビデオオブジェクトセグメンテーション(R-VOS)は、すべてのビデオフレームで言語表現によって参照される対象オブジェクトをセグメント化することを目的とした、新たなクロスモーダルタスクである。
本研究では,ReferFormerと呼ばれるTransformer上に構築されたシンプルで統一的なフレームワークを提案する。
言語をクェリとみなし、ビデオフレーム内の最も関連性の高い領域に直接参加する。
論文 参考訳(メタデータ) (2022-01-03T05:54:00Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。