Fugu-MT 論文翻訳(概要): PromptonomyViT: Multi-Task Prompt Learning Improves Video Transformers using Synthetic Scene Data

論文の概要: PromptonomyViT: Multi-Task Prompt Learning Improves Video Transformers using Synthetic Scene Data

arxiv url: http://arxiv.org/abs/2212.04821v3
Date: Tue, 5 Dec 2023 20:40:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 19:24:17.814507
Title: PromptonomyViT: Multi-Task Prompt Learning Improves Video Transformers using Synthetic Scene Data
Title（参考訳）: PromptonomyViT: 合成シーンデータを用いたマルチタスクプロンプト学習によるビデオトランスフォーマーの改善
Authors: Roei Herzig, Ofir Abramovich, Elad Ben-Avraham, Assaf Arbelle, Leonid Karlinsky, Ariel Shamir, Trevor Darrell, Amir Globerson
Abstract要約: 本稿では,映像理解を改善するために合成シーンデータを活用する手法を提案する。本稿では,ビデオトランスのためのマルチタスク・プロンプト学習手法を提案する。複数のビデオ理解タスクやデータセットに対して,高いパフォーマンス向上を示す。
参考スコア（独自算出の注目度）: 85.48684148629634
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Action recognition models have achieved impressive results by incorporating scene-level annotations, such as objects, their relations, 3D structure, and more. However, obtaining annotations of scene structure for videos requires a significant amount of effort to gather and annotate, making these methods expensive to train. In contrast, synthetic datasets generated by graphics engines provide powerful alternatives for generating scene-level annotations across multiple tasks. In this work, we propose an approach to leverage synthetic scene data for improving video understanding. We present a multi-task prompt learning approach for video transformers, where a shared video transformer backbone is enhanced by a small set of specialized parameters for each task. Specifically, we add a set of "task prompts", each corresponding to a different task, and let each prompt predict task-related annotations. This design allows the model to capture information shared among synthetic scene tasks as well as information shared between synthetic scene tasks and a real video downstream task throughout the entire network. We refer to this approach as "Promptonomy", since the prompts model task-related structure. We propose the PromptonomyViT model (PViT), a video transformer that incorporates various types of scene-level information from synthetic data using the "Promptonomy" approach. PViT shows strong performance improvements on multiple video understanding tasks and datasets. Project page: \url{https://ofir1080.github.io/PromptonomyViT}
Abstract（参考訳）: アクション認識モデルは、オブジェクト、それらの関係、3d構造などのシーンレベルのアノテーションを組み込むことで、印象的な結果を得た。しかし,映像のシーン構造に対するアノテーションを得るには膨大な労力を要するため,これらの手法を訓練するのには費用がかかる。対照的に、グラフィックエンジンによって生成された合成データセットは、複数のタスクにまたがるシーンレベルのアノテーションを生成する強力な代替手段を提供する。本研究では,映像理解を改善するために合成シーンデータを活用する手法を提案する。本稿では,共有ビデオトランスフォーマーのバックボーンを,タスク毎に小さなパラメータセットで拡張する,ビデオトランスフォーマーのためのマルチタスクプロンプト学習手法を提案する。具体的には、異なるタスクに対応する一連の「タスクプロンプト」を追加し、各プロンプトがタスク関連のアノテーションを予測する。この設計により、合成シーンタスク間で共有される情報、合成シーンタスク間で共有される情報、ネットワーク全体にわたって実際のビデオ下流タスクをキャプチャできる。タスク関連構造をモデル化するので,このアプローチを "Promptonomy" と呼ぶ。 PromptonomyViTモデル(PViT)を提案する。PViTは「Promptonomy」アプローチを用いて合成データから様々な種類のシーンレベル情報を組み込むビデオトランスフォーマーである。 PViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。プロジェクトページ: \url{https://ofir1080.github.io/PromptonomyViT}

関連論文リスト

Enhancing Scene Transition Awareness in Video Generation via Post-Training [0.4199844472131921]
我々は,複数のシーン遷移を伴う前処理ビデオクリップからなるtextbfTransition-Aware Videoデータセットを提案する。実験の結果,textbfTAVデータセットのポストトレーニングにより,プロンプトベースのシーン遷移理解が向上し,必要なシーンと生成されたシーンのギャップが狭まり,画質が維持されることがわかった。
論文参考訳（メタデータ） (2025-07-24T02:50:26Z)
UNIC: Unified In-Context Video Editing [76.76077875564526]
UNIC(Unified In-Context Video Editing)は、単一のモデル内でさまざまなビデオ編集タスクをコンテキスト内で統一するフレームワークである。本稿では,一貫した時間的位置エンコーディングを容易にするタスク認識型RoPEと,モデルの異なる編集タスクを明確に区別する条件バイアスを導入する。その結果、我々の統合された手法は各タスクにおいて優れた性能を発揮し、創発的なタスク構成能力を示すことがわかった。
論文参考訳（メタデータ） (2025-06-04T17:57:43Z)
VACE: All-in-One Video Creation and Editing [18.809248697934397]
VACEにより、ユーザーは作成と編集のためのオールインワンフレームワーク内でビデオタスクを実行できる。 VACEを導入し、ユーザが作成と編集のためのオールインワンフレームワーク内でビデオタスクを実行できるようにする。
論文参考訳（メタデータ） (2025-03-10T17:57:04Z)
Video Diffusion Transformers are In-Context Learners [31.736838809714726]
本稿では,ビデオ拡散変換器のコンテキスト内機能を実現するためのソリューションについて検討する。本稿では,テキスト内生成を利用するための簡単なパイプラインを提案する: (textbfii$) ビデオは,空間的あるいは時間的次元に沿って行われる。当社のフレームワークは,研究コミュニティにとって貴重なツールであり,製品レベルの制御可能なビデオ生成システムを進化させる上で重要な洞察を提供する。
論文参考訳（メタデータ） (2024-12-14T10:39:55Z)
TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文参考訳（メタデータ） (2023-12-13T21:02:03Z)
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文参考訳（メタデータ） (2023-07-13T17:57:13Z)
Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。このタスクは、ビデオにおける空間的および時間的局所化を統一する。我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文参考訳（メタデータ） (2023-06-20T17:57:23Z)
TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文参考訳（メタデータ） (2022-08-14T04:07:40Z)
Bringing Image Scene Structure to Video via Frame-Clip Consistency of Object Tokens [93.98605636451806]
StructureViTは、トレーニング中にのみ利用可能な少数の画像の構造を利用することで、ビデオモデルを改善する方法を示している。 SViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。
論文参考訳（メタデータ） (2022-06-13T17:45:05Z)
Object-aware Video-language Pre-training for Retrieval [24.543719616308945]
我々は、オブジェクト表現を組み込むためにビデオ言語トランスフォーマーを拡張するオブジェクト中心のアプローチであるObject-Aware Transformersを提案する。対象表現をビデオ言語アーキテクチャに組み込んだモデルの価値を実証し、考慮したすべてのタスクやデータセットのパフォーマンス改善を示す。
論文参考訳（メタデータ） (2021-12-01T17:06:39Z)
Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。その結果,全ての評価指標について最先端の性能を示すことができた。
論文参考訳（メタデータ） (2020-07-08T02:00:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。