論文の概要: Compositional Prompt Tuning with Motion Cues for Open-vocabulary Video
Relation Detection
- arxiv url: http://arxiv.org/abs/2302.00268v1
- Date: Wed, 1 Feb 2023 06:20:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 17:52:05.598970
- Title: Compositional Prompt Tuning with Motion Cues for Open-vocabulary Video
Relation Detection
- Title(参考訳): オープンボキャブラリー映像関係検出のための運動手がかりを用いた構成的プロンプトチューニング
- Authors: Kaifeng Gao, Long Chen, Hanwang Zhang, Jun Xiao, Qianru Sun
- Abstract要約: Open-VidVRD(Open-VidVRD)のためのRelation Prompt(RePro)を提案する。
ReProは、Open-VidVRDの2つの技術的課題に対処する: 1) プロンプトトークンは、主題と対象の2つの異なる意味的役割を尊重し、2) チューニングは、対象物の構成の様々な述語時間運動パターンを考慮すべきである。
- 参考スコア(独自算出の注目度): 67.64272825961395
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Prompt tuning with large-scale pretrained vision-language models empowers
open-vocabulary predictions trained on limited base categories, e.g., object
classification and detection. In this paper, we propose compositional prompt
tuning with motion cues: an extended prompt tuning paradigm for compositional
predictions of video data. In particular, we present Relation Prompt (RePro)
for Open-vocabulary Video Visual Relation Detection (Open-VidVRD), where
conventional prompt tuning is easily biased to certain subject-object
combinations and motion patterns. To this end, RePro addresses the two
technical challenges of Open-VidVRD: 1) the prompt tokens should respect the
two different semantic roles of subject and object, and 2) the tuning should
account for the diverse spatio-temporal motion patterns of the subject-object
compositions. Without bells and whistles, our RePro achieves a new
state-of-the-art performance on two VidVRD benchmarks of not only the base
training object and predicate categories, but also the unseen ones. Extensive
ablations also demonstrate the effectiveness of the proposed compositional and
multi-mode design of prompts. Code is available at
https://github.com/Dawn-LX/OpenVoc-VidVRD.
- Abstract(参考訳): 大規模な事前訓練された視覚言語モデルによるプロンプトチューニングは、オブジェクトの分類や検出など、限られたベースカテゴリでトレーニングされたオープン語彙の予測を可能にする。
本稿では,映像データの合成予測のための拡張型プロンプトチューニングパラダイムであるモーションキューを用いた合成プロンプトチューニングを提案する。
特に,従来のプロンプトチューニングが特定の対象と対象の組み合わせや動作パターンに偏りやすいオープンボキャブラリー映像視覚関係検出(open-vidvrd)のための関係プロンプト(repro)を提案する。
この目的のために、ReProはOpen-VidVRDの2つの技術的課題に対処する。
1)プロンプトトークンは,対象と対象の2つの異なる意味的役割を尊重すべきである。
2) 調律は, 対象物組成の時空間的運動パターンの多様性を考慮すべきである。
私たちのreproは、ベーストレーニングオブジェクトと述語カテゴリだけでなく、目に見えない2つのvidvrdベンチマークで、新たな最先端のパフォーマンスを実現しています。
また,提案したプロンプトの合成および多モード設計の有効性を示した。
コードはhttps://github.com/Dawn-LX/OpenVoc-VidVRDで入手できる。
関連論文リスト
- GroPrompt: Efficient Grounded Prompting and Adaptation for Referring Video Object Segmentation [41.67544072483324]
Referring Video Object (RVOS) は、ビデオ全体を通してクエリ文によって参照されるオブジェクトをセグメント化することを目的としている。
本稿では,テキスト・アウェア・プロンプト・コントラスト・ラーニング(TAP-CL)を提案する。
提案したTAP-CLにより、GroPromptフレームワークは時間一貫性はあるがテキスト対応の位置プロンプトを生成することができる。
論文 参考訳(メタデータ) (2024-06-18T17:54:17Z) - DisenStudio: Customized Multi-subject Text-to-Video Generation with Disentangled Spatial Control [48.41743234012456]
DisenStudioは、複数のテーマをカスタマイズするためのテキスト誘導ビデオを生成する新しいフレームワークである。
DisenStudioは,空間的異方性を持つクロスアテンション機構を用いて,事前学習した拡散に基づくテキスト・ビデオ・モデルを強化する。
提案したDisenStudioは,様々な測定値において既存手法を著しく上回っていることを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-05-21T13:44:55Z) - Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Grounding [108.79026216923984]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。
クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文 参考訳(メタデータ) (2023-03-21T10:40:13Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z) - PromptDet: Expand Your Detector Vocabulary with Uncurated Images [47.600059694034]
この作業の目的は、ゼロマニュアルアノテーションを使用して、新しい/見えないカテゴリに向けてオブジェクト検出器を拡張するスケーラブルなパイプラインを確立することである。
本稿では,事前学習された視覚言語モデルのテキストエンコーダから生成された分類器を用いて,各ボックスの提案を分類する2段階のオープン語彙オブジェクト検出器を提案する。
より広い範囲のオブジェクトを検出するための学習手順をスケールアップするために、利用可能なオンラインリソースを活用し、プロンプトを反復的に更新し、その後、ノイズの多い未修正画像の大規模なコーパス上に生成された擬似ラベルを用いて、提案した検出器を自己学習する。
論文 参考訳(メタデータ) (2022-03-30T17:50:21Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。