論文の概要: PromptonomyViT: Multi-Task Prompt Learning Improves Video Transformers
using Synthetic Scene Data
- arxiv url: http://arxiv.org/abs/2212.04821v3
- Date: Tue, 5 Dec 2023 20:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 19:24:17.814507
- Title: PromptonomyViT: Multi-Task Prompt Learning Improves Video Transformers
using Synthetic Scene Data
- Title(参考訳): PromptonomyViT: 合成シーンデータを用いたマルチタスクプロンプト学習によるビデオトランスフォーマーの改善
- Authors: Roei Herzig, Ofir Abramovich, Elad Ben-Avraham, Assaf Arbelle, Leonid
Karlinsky, Ariel Shamir, Trevor Darrell, Amir Globerson
- Abstract要約: 本稿では,映像理解を改善するために合成シーンデータを活用する手法を提案する。
本稿では,ビデオトランスのためのマルチタスク・プロンプト学習手法を提案する。
複数のビデオ理解タスクやデータセットに対して,高いパフォーマンス向上を示す。
- 参考スコア(独自算出の注目度): 85.48684148629634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition models have achieved impressive results by incorporating
scene-level annotations, such as objects, their relations, 3D structure, and
more. However, obtaining annotations of scene structure for videos requires a
significant amount of effort to gather and annotate, making these methods
expensive to train. In contrast, synthetic datasets generated by graphics
engines provide powerful alternatives for generating scene-level annotations
across multiple tasks. In this work, we propose an approach to leverage
synthetic scene data for improving video understanding. We present a multi-task
prompt learning approach for video transformers, where a shared video
transformer backbone is enhanced by a small set of specialized parameters for
each task. Specifically, we add a set of "task prompts", each corresponding to
a different task, and let each prompt predict task-related annotations. This
design allows the model to capture information shared among synthetic scene
tasks as well as information shared between synthetic scene tasks and a real
video downstream task throughout the entire network. We refer to this approach
as "Promptonomy", since the prompts model task-related structure. We propose
the PromptonomyViT model (PViT), a video transformer that incorporates various
types of scene-level information from synthetic data using the "Promptonomy"
approach. PViT shows strong performance improvements on multiple video
understanding tasks and datasets. Project page:
\url{https://ofir1080.github.io/PromptonomyViT}
- Abstract(参考訳): アクション認識モデルは、オブジェクト、それらの関係、3d構造などのシーンレベルのアノテーションを組み込むことで、印象的な結果を得た。
しかし,映像のシーン構造に対するアノテーションを得るには膨大な労力を要するため,これらの手法を訓練するのには費用がかかる。
対照的に、グラフィックエンジンによって生成された合成データセットは、複数のタスクにまたがるシーンレベルのアノテーションを生成する強力な代替手段を提供する。
本研究では,映像理解を改善するために合成シーンデータを活用する手法を提案する。
本稿では,共有ビデオトランスフォーマーのバックボーンを,タスク毎に小さなパラメータセットで拡張する,ビデオトランスフォーマーのためのマルチタスクプロンプト学習手法を提案する。
具体的には、異なるタスクに対応する一連の「タスクプロンプト」を追加し、各プロンプトがタスク関連のアノテーションを予測する。
この設計により、合成シーンタスク間で共有される情報、合成シーンタスク間で共有される情報、ネットワーク全体にわたって実際のビデオ下流タスクをキャプチャできる。
タスク関連構造をモデル化するので,このアプローチを "Promptonomy" と呼ぶ。
PromptonomyViTモデル(PViT)を提案する。PViTは「Promptonomy」アプローチを用いて合成データから様々な種類のシーンレベル情報を組み込むビデオトランスフォーマーである。
PViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。
プロジェクトページ: \url{https://ofir1080.github.io/PromptonomyViT}
関連論文リスト
- TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Bringing Image Scene Structure to Video via Frame-Clip Consistency of
Object Tokens [93.98605636451806]
StructureViTは、トレーニング中にのみ利用可能な少数の画像の構造を利用することで、ビデオモデルを改善する方法を示している。
SViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2022-06-13T17:45:05Z) - Object-aware Video-language Pre-training for Retrieval [24.543719616308945]
我々は、オブジェクト表現を組み込むためにビデオ言語トランスフォーマーを拡張するオブジェクト中心のアプローチであるObject-Aware Transformersを提案する。
対象表現をビデオ言語アーキテクチャに組み込んだモデルの価値を実証し、考慮したすべてのタスクやデータセットのパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2021-12-01T17:06:39Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。