論文の概要: End-to-End Referring Video Object Segmentation with Multimodal
Transformers
- arxiv url: http://arxiv.org/abs/2111.14821v1
- Date: Mon, 29 Nov 2021 18:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 15:03:13.357866
- Title: End-to-End Referring Video Object Segmentation with Multimodal
Transformers
- Title(参考訳): マルチモーダル変換器を用いたビデオオブジェクト分割のエンドツーエンド参照
- Authors: Adam Botach, Evgenii Zheltonozhskii, Chaim Baskin
- Abstract要約: 本稿では,ビデオオブジェクトのセグメンテーションタスクへの簡単なトランスフォーマーベースアプローチを提案する。
我々のフレームワークは、MTTR(Multimodal Tracking Transformer)と呼ばれ、RVOSタスクをシーケンス予測問題としてモデル化している。
MTTRはエンドツーエンドのトレーニングが可能で、テキスト関連の帰納バイアスコンポーネントが不要で、追加のマスクリファインメント後処理ステップを必要としない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The referring video object segmentation task (RVOS) involves segmentation of
a text-referred object instance in the frames of a given video. Due to the
complex nature of this multimodal task, which combines text reasoning, video
understanding, instance segmentation and tracking, existing approaches
typically rely on sophisticated pipelines in order to tackle it. In this paper,
we propose a simple Transformer-based approach to RVOS. Our framework, termed
Multimodal Tracking Transformer (MTTR), models the RVOS task as a sequence
prediction problem. Following recent advancements in computer vision and
natural language processing, MTTR is based on the realization that video and
text can both be processed together effectively and elegantly by a single
multimodal Transformer model. MTTR is end-to-end trainable, free of
text-related inductive bias components and requires no additional
mask-refinement post-processing steps. As such, it simplifies the RVOS pipeline
considerably compared to existing methods. Evaluation on standard benchmarks
reveals that MTTR significantly outperforms previous art across multiple
metrics. In particular, MTTR shows impressive +5.7 and +5.0 mAP gains on the
A2D-Sentences and JHMDB-Sentences datasets respectively, while processing 76
frames per second. In addition, we report strong results on the public
validation set of Refer-YouTube-VOS, a more challenging RVOS dataset that has
yet to receive the attention of researchers. The code to reproduce our
experiments is available at https://github.com/mttr2021/MTTR
- Abstract(参考訳): 参照ビデオオブジェクトセグメンテーションタスク(RVOS)は、所定のビデオのフレーム内のテキスト参照オブジェクトインスタンスのセグメンテーションを含む。
テキスト推論、ビデオ理解、インスタンスのセグメンテーションとトラッキングを組み合わせたこのマルチモーダルタスクの複雑な性質のため、既存のアプローチは通常、それに取り組むために洗練されたパイプラインに依存している。
本稿では, RVOS に対する簡単な Transformer ベースのアプローチを提案する。
我々のフレームワークはMTTR(Multimodal Tracking Transformer)と呼ばれ、RVOSタスクをシーケンス予測問題としてモデル化している。
近年のコンピュータビジョンと自然言語処理の進歩に続いて、MTTRは、ビデオとテキストの両方を単一のマルチモーダルトランスフォーマーモデルで効果的かつエレガントに処理できることの認識に基づいている。
MTTRはエンドツーエンドのトレーニングが可能で、テキスト関連の帰納バイアスコンポーネントが不要で、追加のマスクリファインメント後処理ステップを必要としない。
そのため、既存の方法に比べてRVOSパイプラインを大幅に単純化する。
標準ベンチマークの評価では、MTTRは複数の指標で過去の技術よりも大幅に優れていた。
特にMTTRは、A2D-Sentences と JHMDB-Sentences のデータセットに対して、毎秒76フレームを処理しながら、印象的な +5.7 と +5.0 mAP のゲインを示している。
さらに,研究者の注目をまだ受けていないRVOSデータセットであるRefer-YouTube-VOSの公開検証セットについて,強い結果を報告する。
実験を再現するコードはhttps://github.com/mttr2021/MTTRで公開されている。
関連論文リスト
- InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - Task-Specific Alignment and Multiple Level Transformer for Few-Shot
Action Recognition [11.700737340560796]
近年、一部の研究はTransformerを使ってフレームを処理し、注目機能と改良されたプロトタイプを入手し、その結果は競争力がある。
我々は、これらの問題を"Task-Specific Alignment and Multiple-level Transformer Network (TSA-MLT)"と呼ばれるエンドツーエンドの手法で解決する。
提案手法は,HMDB51およびUCF101データセットの最先端結果と,KineeticsベンチマークとV2データセットの競合結果とを比較検討する。
論文 参考訳(メタデータ) (2023-07-05T02:13:25Z) - Referred by Multi-Modality: A Unified Temporal Transformer for Video
Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。
MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。
変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文 参考訳(メタデータ) (2023-05-25T17:59:47Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - End-to-End Video Text Spotting with Transformer [86.46724646835627]
我々は、シンプルだが効果的なビデオテキスト検出・追跡・認識フレームワーク(TransDETR)を提案する。
TransDETRは、最初のエンドツーエンドのトレーニング可能なビデオテキストスポッティングフレームワークであり、3つのサブタスク(テキスト検出、追跡、認識など)を同時に扱う。
論文 参考訳(メタデータ) (2022-03-20T12:14:58Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - SOTR: Segmenting Objects with Transformers [0.0]
高品質なインスタンスセグメンテーションのための,新しい,フレキシブルで効果的なトランスフォーマーベースモデルを提案する。
提案手法は, TRansformer (SOTR) を用いたSegmenting Objects (Segmenting Objects) により, 分割パイプラインを単純化する。
我々のSOTRはMS COCOデータセットでよく機能し、最先端のインスタンスセグメンテーションアプローチを超えています。
論文 参考訳(メタデータ) (2021-08-15T14:10:11Z) - HiT: Hierarchical Transformer with Momentum Contrast for Video-Text
Retrieval [40.646628490887075]
ビデオテキスト検索のためのHiT(Hierarchical Transformer)という新しい手法を提案する。
HiTは特徴レベルと意味レベルで階層的相互モーダルコントラストマッチングを行い、多視点および包括的検索結果を得る。
MoCoにインスパイアされたクロスモーダル学習のためのMomentum Cross-modal Contrastを提案する。
論文 参考訳(メタデータ) (2021-03-28T04:52:25Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。