論文の概要: ProTAL: A Drag-and-Link Video Programming Framework for Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2505.17555v1
- Date: Fri, 23 May 2025 07:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.886883
- Title: ProTAL: A Drag-and-Link Video Programming Framework for Temporal Action Localization
- Title(参考訳): ProTAL: 時間的アクションローカライゼーションのためのドラッグ&リンクビデオプログラミングフレームワーク
- Authors: Yuchen He, Jianbing Lv, Liqi Cheng, Lingyu Meng, Dazhen Deng, Yingcai Wu,
- Abstract要約: 本稿では,ドラグ&リンク型ビデオプログラミングフレームワークProTALを提案する。
ProTALでは、ボディパーツやオブジェクトを表すノードをドラッグすることで、textbfkeyイベントを定義することができる。
次に、半教師付き手法を用いて、そのようなラベルでTALモデルを訓練する。
- 参考スコア(独自算出の注目度): 16.08762866218349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Action Localization (TAL) aims to detect the start and end timestamps of actions in a video. However, the training of TAL models requires a substantial amount of manually annotated data. Data programming is an efficient method to create training labels with a series of human-defined labeling functions. However, its application in TAL faces difficulties of defining complex actions in the context of temporal video frames. In this paper, we propose ProTAL, a drag-and-link video programming framework for TAL. ProTAL enables users to define \textbf{key events} by dragging nodes representing body parts and objects and linking them to constrain the relations (direction, distance, etc.). These definitions are used to generate action labels for large-scale unlabelled videos. A semi-supervised method is then employed to train TAL models with such labels. We demonstrate the effectiveness of ProTAL through a usage scenario and a user study, providing insights into designing video programming framework.
- Abstract(参考訳): テンポラルアクションローカライゼーション(TAL)は、ビデオ中のアクションの開始と終了のタイムスタンプを検出することを目的としている。
しかし、TALモデルのトレーニングには大量の手動のアノテートデータが必要である。
データプログラミングは、人間が定義した一連のラベル付け機能を持つトレーニングラベルを作成するための効率的な方法である。
しかし、TALにおけるその応用は、時間的ビデオフレームの文脈で複雑なアクションを定義することの難しさに直面している。
本稿では,ドラグ・アンド・リンク型ビデオプログラミングフレームワークProTALを提案する。
ProTALでは、ボディパーツやオブジェクトを表すノードをドラッグして、関係(方向、距離など)を制限することで、 \textbf{key event}を定義することができる。
これらの定義は、大規模ビデオのアクションラベルを生成するために使用される。
次に、半教師付き手法を用いて、そのようなラベルでTALモデルを訓練する。
本稿では,ProTALの有効性を,利用シナリオとユーザスタディを通じて実証し,ビデオプログラミングフレームワークの設計に関する洞察を提供する。
関連論文リスト
- Generative Timelines for Instructed Visual Assembly [106.80501761556606]
この研究の目的は、自然言語の指示を通じて視覚的タイムライン(例えばビデオ)を操作することである。
そこで本研究では,教師付き視覚アセンブリタスクの実行を訓練した生成モデルであるTimeline Assemblerを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:26:30Z) - TRACE: Temporal Grounding Video LLM via Causal Event Modeling [6.596327795743185]
ビデオ時間グラウンド(VTG)は、ビデオ理解モデルにとって重要な機能であり、ビデオブラウジングや編集などの下流タスクにおいて重要な役割を果たす。
現在のビデオLLMは自然言語生成のみに依存しており、ビデオに固有の明確な構造をモデル化する能力がない。
本稿では、ビデオLLM出力をイベントのシーケンスとして表現し、過去のイベント、ビデオ入力、テキスト命令を用いて現在のイベントを予測する因果イベントモデリングフレームワークを提案する。
本稿では,TRACE と呼ばれるタスクインターリーブビデオ LLM を提案し,実際に因果イベントモデリングフレームワークを効果的に実装する。
論文 参考訳(メタデータ) (2024-10-08T02:46:30Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - Compositional Video Synthesis with Action Graphs [112.94651460161992]
アクションのビデオは、空間と時間の豊富な構成構造を含む複雑な信号である。
本稿では、アクショングラフと呼ばれるグラフ構造におけるアクションを表現し、新しいアクショングラフ・トゥ・ビデオ合成タスクを提案する。
このタスクのための生成モデル(AG2Vid)は、動作と外観の特徴を歪め、アクションのスケジューリング機構を組み込むことで、タイムリーかつ協調的なビデオ生成を容易にする。
論文 参考訳(メタデータ) (2020-06-27T09:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。