論文の概要: Local-Global Context Aware Transformer for Language-Guided Video
Segmentation
- arxiv url: http://arxiv.org/abs/2203.09773v2
- Date: Fri, 19 Jan 2024 13:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 19:52:24.929724
- Title: Local-Global Context Aware Transformer for Language-Guided Video
Segmentation
- Title(参考訳): 言語誘導ビデオセグメンテーションのための局所的グローバルコンテキスト認識トランスフォーマ
- Authors: Chen Liang, Wenguan Wang, Tianfei Zhou, Jiaxu Miao, Yawei Luo and Yi
Yang
- Abstract要約: 言語誘導ビデオセグメンテーション(LVS)の課題について検討する。
そこで我々は,Transformerアーキテクチャを有限メモリで拡張し,動画全体を言語表現で効率的にクエリするLocaterを提案する。
LVSモデルの視覚的接地能力を徹底的に検討するため、新しいLVSデータセットであるA2D-S+をA2D-Sデータセット上に構築する。
- 参考スコア(独自算出の注目度): 103.35509224722097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the task of language-guided video segmentation (LVS). Previous
algorithms mostly adopt 3D CNNs to learn video representation, struggling to
capture long-term context and easily suffering from visual-linguistic
misalignment. In light of this, we present Locater (local-global context aware
Transformer), which augments the Transformer architecture with a finite memory
so as to query the entire video with the language expression in an efficient
manner. The memory is designed to involve two components -- one for
persistently preserving global video content, and one for dynamically gathering
local temporal context and segmentation history. Based on the memorized
local-global context and the particular content of each frame, Locater
holistically and flexibly comprehends the expression as an adaptive query
vector for each frame. The vector is used to query the corresponding frame for
mask generation. The memory also allows Locater to process videos with linear
time complexity and constant size memory, while Transformer-style
self-attention computation scales quadratically with sequence length. To
thoroughly examine the visual grounding capability of LVS models, we contribute
a new LVS dataset, A2D-S+, which is built upon A2D-S dataset but poses
increased challenges in disambiguating among similar objects. Experiments on
three LVS datasets and our A2D-S+ show that Locater outperforms previous
state-of-the-arts. Further, we won the 1st place in the Referring Video Object
Segmentation Track of the 3rd Large-scale Video Object Segmentation Challenge,
where Locater served as the foundation for the winning solution. Our code and
dataset are available at: https://github.com/leonnnop/Locater
- Abstract(参考訳): 我々は,言語誘導ビデオセグメンテーション(lvs)の課題を検討する。
従来のアルゴリズムは、ビデオ表現を学ぶために3D CNNを採用しており、長期的コンテキストを捉えるのに苦労し、視覚言語的なミスアライメントに苦しむ。
そこで,本研究では,トランスフォーマーアーキテクチャを有限メモリで拡張し,ビデオ全体を効率的な言語表現でクエリする位置決め器(local-global context aware transformer)を提案する。
メモリは、グローバルなビデオコンテンツを永続的に保存するコンポーネントと、ローカルな時間的コンテキストとセグメンテーション履歴を動的に収集するコンポーネントの2つを含むように設計されている。
記憶された局所的グローバルコンテキストと各フレームの特定の内容に基づいて、ロケータは、各フレームに対する適応的クエリベクトルとして表現を階層的に柔軟に理解する。
ベクトルは、対応するフレームにマスク生成をクエリするために使用される。
メモリはリニアタイムの複雑さと一定サイズのメモリでビデオを処理することができ、Transformerスタイルの自己アテンション計算はシーケンス長と2倍にスケールする。
LVSモデルの視覚的グラウンドディング能力を徹底的に検証するために、A2D-Sデータセット上に構築されている新しいLVSデータセットであるA2D-S+をコントリビュートする。
3つのLVSデータセットとA2D-S+の実験は、Locaterが過去の最先端よりも優れていることを示している。
さらに,第3回大規模映像オブジェクトセグメンテーションチャレンジの参照映像オブジェクトセグメンテーショントラックにおいて,ロケータが勝利ソリューションの基盤となる1位を獲得した。
私たちのコードとデータセットは以下の通りです。
関連論文リスト
- VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos [41.34787907803329]
VideoLISAは、ビデオ内の言語命令による推論セグメンテーションの問題に対処するために設計された、ビデオベースのマルチモーダルな大規模言語モデルである。
VideoLISAは、言語命令に基づいてビデオ内に時間的に一貫したセグメンテーションマスクを生成する。
論文 参考訳(メタデータ) (2024-09-29T07:47:15Z) - VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - Fully Transformer-Equipped Architecture for End-to-End Referring Video
Object Segmentation [24.814534011440877]
本稿では,RVOSタスクをマスクシーケンス学習問題として扱うエンドツーエンドのRVOSフレームワークを提案する。
オブジェクトレベルの空間コンテキストをキャプチャするために,Stacked Transformerを開発した。
このモデルは、マスクシーケンスとテキストクエリの最適なマッチングを見つける。
論文 参考訳(メタデータ) (2023-09-21T09:47:47Z) - Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:59:41Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。