論文の概要: Action Duration Prediction for Segment-Level Alignment of Weakly-Labeled
Videos
- arxiv url: http://arxiv.org/abs/2011.10190v1
- Date: Fri, 20 Nov 2020 03:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:58:31.159272
- Title: Action Duration Prediction for Segment-Level Alignment of Weakly-Labeled
Videos
- Title(参考訳): 弱ラベル映像のセグメントレベルアライメントに対する動作時間予測
- Authors: Reza Ghoddoosian, Saif Sayed, Vassilis Athitsos
- Abstract要約: 本稿では,ビデオレベルアクションの順序列のみをトレーニングに使用可能な,弱教師付きアクションアライメントに焦点を当てる。
本研究では,ビデオの短時間の時間的ウィンドウをキャプチャし,そのアクションの種類に基づいて,任意の時点における動作の残余時間を予測する新しい時間的ネットワークを提案する。
- 参考スコア(独自算出の注目度): 4.318555434063273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on weakly-supervised action alignment, where only the
ordered sequence of video-level actions is available for training. We propose a
novel Duration Network, which captures a short temporal window of the video and
learns to predict the remaining duration of a given action at any point in time
with a level of granularity based on the type of that action. Further, we
introduce a Segment-Level Beam Search to obtain the best alignment, that
maximizes our posterior probability. Segment-Level Beam Search efficiently
aligns actions by considering only a selected set of frames that have more
confident predictions. The experimental results show that our alignments for
long videos are more robust than existing models. Moreover, the proposed method
achieves state of the art results in certain cases on the popular Breakfast and
Hollywood Extended datasets.
- Abstract(参考訳): 本稿では,ビデオレベルアクションの順序列のみをトレーニングに使用可能な,弱教師付きアクションアライメントに焦点を当てる。
本研究では,ビデオの短時間の時間的ウィンドウをキャプチャし,そのアクションの種類に基づいて,任意の時点における動作の残余時間を予測する新しい時間的ネットワークを提案する。
さらに,後続確率を最大化する最良アライメントを得るために,セグメントレベルのビーム探索を導入する。
Segment-Level Beam Searchは、より確実な予測を持つフレームのセットのみを考慮することで、アクションを効率的に調整する。
実験の結果,従来のモデルよりも長編ビデオのアライメントが堅牢であることがわかった。
さらに,提案手法は,人気の高いBreakfast および Hollywood Extended データセットの特定のケースにおいて,技術結果の状態を達成している。
関連論文リスト
- Generation-Guided Multi-Level Unified Network for Video Grounding [18.402093379973085]
ビデオグラウンディングは、未トリミングされたビデオの中で、クエリ記述に最適なタイムスタンプを見つけることを目的としている。
モーメントレベルのアプローチは、グローバルな視点で各過渡モーメントが境界となる確率を直接予測する。
クリップレベルのものは、異なる時間窓のモーメントをプロポーザルに集約し、最も類似したモーメントを推論し、きめ細かいグラウンドリングにおいてその優位性をもたらす。
論文 参考訳(メタデータ) (2023-03-14T09:48:59Z) - Distill and Collect for Semi-Supervised Temporal Action Segmentation [0.0]
本稿では,注釈付きおよび注釈なしのビデオシーケンスからの知識を同時に活用する時間的行動分割タスクを提案する。
提案手法では, 繰り返し精製し, 最終的にフレーム予測を組み合わすマルチストリーム蒸留を用いる。
また,本モデルでは,後に時間的制約として使用されるアクション順序を予測し,無注釈ビデオの監督の欠如に対処するため,フレームラベルを推定する。
論文 参考訳(メタデータ) (2022-11-02T17:34:04Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - Anchor-Constrained Viterbi for Set-Supervised Action Segmentation [38.32743770719661]
本論文では,トレーニングにおける弱い監督下でのアクションセグメンテーションについて述べる。
ビデオフレームのラベル付けには多層パーセプトロン(MLP)をベースとしたHMM(Hidden Markov Model)を用いる。
テストでは、トレーニングで見られるアクションセットのモンテカルロサンプリングを使用して、アクションの候補時間シーケンスを生成する。
論文 参考訳(メタデータ) (2021-04-05T18:50:21Z) - Point-Level Temporal Action Localization: Bridging Fully-supervised
Proposals to Weakly-supervised Losses [84.2964408497058]
point-level temporal action localization (ptal) は、各アクションインスタンスに対して1つのタイムスタンプアノテーションで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
既存の手法ではフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。
本稿では,ポイントレベルアノテーションの提案に基づく予測パラダイムを検討する。
論文 参考訳(メタデータ) (2020-12-15T12:11:48Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z) - Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。
我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文 参考訳(メタデータ) (2020-05-07T02:39:18Z) - Fast Template Matching and Update for Video Object Tracking and
Segmentation [56.465510428878]
私たちが取り組もうとしている主な課題は、フレームの列にまたがるマルチインスタンスの半教師付きビデオオブジェクトセグメンテーションである。
課題は、結果を予測するためのマッチングメソッドの選択と、ターゲットテンプレートを更新するかどうかを決定することである。
本稿では,これら2つの決定を同時に行うために,強化学習を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-04-16T08:58:45Z) - SCT: Set Constrained Temporal Transformer for Set Supervised Action
Segmentation [22.887397951846353]
弱教師付きアプローチは、弱ラベル付きビデオから時間的アクションセグメンテーションを学ぶことを目的としている。
このようなデータに基づいてエンドツーエンドにトレーニング可能なアプローチを提案する。
提案手法は,最先端の結果が得られる3つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2020-03-31T14:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。