Fugu-MT 論文翻訳(概要): GroPrompt: Efficient Grounded Prompting and Adaptation for Referring Video Object Segmentation

論文の概要: GroPrompt: Efficient Grounded Prompting and Adaptation for Referring Video Object Segmentation

arxiv url: http://arxiv.org/abs/2406.12834v1
Date: Tue, 18 Jun 2024 17:54:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 17:39:34.867977
Title: GroPrompt: Efficient Grounded Prompting and Adaptation for Referring Video Object Segmentation
Title（参考訳）: GroPrompt: ビデオオブジェクトのセグメンテーションの効率化と適応
Authors: Ci-Siang Lin, I-Jieh Liu, Min-Hung Chen, Chien-Yi Wang, Sifei Liu, Yu-Chiang Frank Wang,
Abstract要約: Referring Video Object (RVOS) は、ビデオ全体を通してクエリ文によって参照されるオブジェクトをセグメント化することを目的としている。本稿では,テキスト・アウェア・プロンプト・コントラスト・ラーニング(TAP-CL)を提案する。提案したTAP-CLにより、GroPromptフレームワークは時間一貫性はあるがテキスト対応の位置プロンプトを生成することができる。
参考スコア（独自算出の注目度）: 41.67544072483324
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Referring Video Object Segmentation (RVOS) aims to segment the object referred to by the query sentence throughout the entire video. Most existing methods require end-to-end training with dense mask annotations, which could be computation-consuming and less scalable. In this work, we aim to efficiently adapt foundation segmentation models for addressing RVOS from weak supervision with the proposed Grounded Prompting (GroPrompt) framework. More specifically, we propose Text-Aware Prompt Contrastive Learning (TAP-CL) to enhance the association between the position prompts and the referring sentences with only box supervisions, including Text-Contrastive Prompt Learning (TextCon) and Modality-Contrastive Prompt Learning (ModalCon) at frame level and video level, respectively. With the proposed TAP-CL, our GroPrompt framework can generate temporal-consistent yet text-aware position prompts describing locations and movements for the referred object from the video. The experimental results in the standard RVOS benchmarks (Ref-YouTube-VOS, Ref-DAVIS17, A2D-Sentences, and JHMDB-Sentences) demonstrate the competitive performance of our proposed GroPrompt framework given only bounding box weak supervisions.
Abstract（参考訳）: Referring Video Object Segmentation (RVOS)は、ビデオ全体を通してクエリ文によって参照されるオブジェクトをセグメントすることを目的としている。既存のほとんどのメソッドでは、高密度なマスクアノテーションによるエンドツーエンドのトレーニングが必要です。本研究では,提案するGroPrompting(GroPrompt)フレームワークを用いて,RVOSに対処するための基盤セグメンテーションモデルを弱監督から効率的に適用することを目的とする。具体的には,テキストコントラスト学習 (TextCon) とモダリティコントラスト学習 (ModalCon) をそれぞれフレームレベルとビデオレベルで行うことで,テキストコントラスト学習 (ModalCon) やモダリティコントラスト学習 (ModalCon) などのボックスインスペクタのみによる位置プロンプトと参照文の関連性を高めるために,TAP-CL (Text-Aware Prompt Contrastive Learning) を提案する。提案したTAP-CLにより、GroPromptフレームワークは、ビデオから参照対象の位置と動きを記述した時間一貫性のあるテキスト対応の位置プロンプトを生成することができる。標準RVOSベンチマーク(Ref-YouTube-VOS,Ref-DAVIS17,A2D-Sentences,JHMDB-Sentences)における実験結果は,バウンディングボックスの弱い監視のみを前提として提案したGroPromptフレームワークの競合性能を示す。

関連論文リスト

GA2-CLIP: Generic Attribute Anchor for Efficient Prompt Tuningin Video-Language Models [34.002791706686345]
視覚的およびテキスト的ソフトプロンプトチューニングは、下流タスクにおける視覚言語モデル(VLM)の適応性を向上させることができる。既存の手法では、手作りプロンプトとソフトプロンプトのギャップを規則化することで、この効果を緩和しようとする。本稿では,ビデオタスクにおけるV-Lモデルの性能を最適化するプラグイン・アンド・プレイ・カップリング・プロンプト学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-27T05:36:47Z)
Temporal Prompting Matters: Rethinking Referring Video Object Segmentation [64.82333675385802]
Referring Video Object (RVOS) は、クエリ文によって参照されるオブジェクトをビデオにセグメントすることを目的としている。既存のほとんどの方法は、密集したマスクアノテーションによるエンドツーエンドのトレーニングを必要とする。本稿では,参照要因とビデオ要因に対処するテンポラル・プロンプト生成・選択(テネ)フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-08T17:59:57Z)
Unleashing Hierarchical Reasoning: An LLM-Driven Framework for Training-Free Referring Video Object Segmentation [17.238084264485988]
Referring Video Object (RVOS) は、言語記述に基づいて、ビデオ全体を通して関心のあるオブジェクトをセグメントすることを目的としている。 bftextPARSE-VOSは、Large Language Models (LLMs)を利用したトレーニング不要のフレームワークである。 bftextPARSE-VOSは、Ref-YouTube-VOS、Ref-DAVIS17、MeViSの3つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2025-09-06T15:46:23Z)
Hierarchical Visual Prompt Learning for Continual Video Instance Segmentation [115.74044261016554]
ビデオインスタンスセグメンテーション(VIS)は、ビデオフレーム全体にわたるオブジェクトインスタンスのトラッキングとセグメンテーションの能力において、大きな注目を集めている。既存のVISアプローチのほとんどは、オブジェクトインスタンスのカテゴリが時間とともに固定されていると非現実的に仮定する。我々は,フレームレベルとビデオレベルの両方の観点から,過去のカテゴリの破滅的な忘れを克服する新しい階層型ビジュアルプロンプト学習モデルを開発した。
論文参考訳（メタデータ） (2025-08-12T03:49:08Z)
ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通して対象オブジェクトをセグメンテーションすることを目的としている。我々は、事前訓練された視覚基盤モデルから強力な視覚言語理解を継承する、エンドツーエンドのRVOSモデルである textbfReferDINO を提案する。
論文参考訳（メタデータ） (2025-01-24T16:24:15Z)
SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文参考訳（メタデータ） (2023-05-26T15:13:44Z)
Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文参考訳（メタデータ） (2023-03-11T11:00:16Z)
Compositional Prompt Tuning with Motion Cues for Open-vocabulary Video Relation Detection [67.64272825961395]
Open-VidVRD(Open-VidVRD)のためのRelation Prompt(RePro)を提案する。 ReProは、Open-VidVRDの2つの技術的課題に対処する: 1) プロンプトトークンは、主題と対象の2つの異なる意味的役割を尊重し、2) チューニングは、対象物の構成の様々な述語時間運動パターンを考慮すべきである。
論文参考訳（メタデータ） (2023-02-01T06:20:54Z)
HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文参考訳（メタデータ） (2023-01-05T21:53:19Z)
Fine-grained Semantic Alignment Network for Weakly Supervised Temporal Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文参考訳（メタデータ） (2022-10-21T13:10:27Z)
The Second Place Solution for The 4th Large-scale Video Object Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文参考訳（メタデータ） (2022-06-24T02:15:06Z)
Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-04T13:07:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。