論文の概要: GroPrompt: Efficient Grounded Prompting and Adaptation for Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2406.12834v2
- Date: Sun, 23 Jun 2024 19:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 23:54:21.202765
- Title: GroPrompt: Efficient Grounded Prompting and Adaptation for Referring Video Object Segmentation
- Title(参考訳): GroPrompt: ビデオオブジェクトのセグメンテーションの効率化と適応
- Authors: Ci-Siang Lin, I-Jieh Liu, Min-Hung Chen, Chien-Yi Wang, Sifei Liu, Yu-Chiang Frank Wang,
- Abstract要約: Referring Video Object (RVOS) は、ビデオ全体を通してクエリ文によって参照されるオブジェクトをセグメント化することを目的としている。
本稿では,テキスト・アウェア・プロンプト・コントラスト・ラーニング(TAP-CL)を提案する。
提案したTAP-CLにより、GroPromptフレームワークは時間一貫性はあるがテキスト対応の位置プロンプトを生成することができる。
- 参考スコア(独自算出の注目度): 41.67544072483324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Video Object Segmentation (RVOS) aims to segment the object referred to by the query sentence throughout the entire video. Most existing methods require end-to-end training with dense mask annotations, which could be computation-consuming and less scalable. In this work, we aim to efficiently adapt foundation segmentation models for addressing RVOS from weak supervision with the proposed Grounded Prompting (GroPrompt) framework. More specifically, we propose Text-Aware Prompt Contrastive Learning (TAP-CL) to enhance the association between the position prompts and the referring sentences with only box supervisions, including Text-Contrastive Prompt Learning (TextCon) and Modality-Contrastive Prompt Learning (ModalCon) at frame level and video level, respectively. With the proposed TAP-CL, our GroPrompt framework can generate temporal-consistent yet text-aware position prompts describing locations and movements for the referred object from the video. The experimental results in the standard RVOS benchmarks (Ref-YouTube-VOS, Ref-DAVIS17, A2D-Sentences, and JHMDB-Sentences) demonstrate the competitive performance of our proposed GroPrompt framework given only bounding box weak supervisions.
- Abstract(参考訳): Referring Video Object Segmentation (RVOS)は、ビデオ全体を通してクエリ文によって参照されるオブジェクトをセグメントすることを目的としている。
既存のほとんどのメソッドでは、高密度なマスクアノテーションによるエンドツーエンドのトレーニングが必要です。
本研究では,提案するGroPrompting(GroPrompt)フレームワークを用いて,RVOSに対処するための基盤セグメンテーションモデルを弱監督から効率的に適用することを目的とする。
具体的には,テキストコントラスト学習 (TextCon) とモダリティコントラスト学習 (ModalCon) をそれぞれフレームレベルとビデオレベルで行うことで,テキストコントラスト学習 (ModalCon) やモダリティコントラスト学習 (ModalCon) などのボックスインスペクタのみによる位置プロンプトと参照文の関連性を高めるために,TAP-CL (Text-Aware Prompt Contrastive Learning) を提案する。
提案したTAP-CLにより、GroPromptフレームワークは、ビデオから参照対象の位置と動きを記述した時間一貫性のあるテキスト対応の位置プロンプトを生成することができる。
標準RVOSベンチマーク(Ref-YouTube-VOS,Ref-DAVIS17,A2D-Sentences,JHMDB-Sentences)における実験結果は,バウンディングボックスの弱い監視のみを前提として提案したGroPromptフレームワークの競合性能を示す。
関連論文リスト
- SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Compositional Prompt Tuning with Motion Cues for Open-vocabulary Video
Relation Detection [67.64272825961395]
Open-VidVRD(Open-VidVRD)のためのRelation Prompt(RePro)を提案する。
ReProは、Open-VidVRDの2つの技術的課題に対処する: 1) プロンプトトークンは、主題と対象の2つの異なる意味的役割を尊重し、2) チューニングは、対象物の構成の様々な述語時間運動パターンを考慮すべきである。
論文 参考訳(メタデータ) (2023-02-01T06:20:54Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。