論文の概要: Temporal Context Consistency Above All: Enhancing Long-Term Anticipation by Learning and Enforcing Temporal Constraints
- arxiv url: http://arxiv.org/abs/2412.19424v1
- Date: Fri, 27 Dec 2024 03:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:17.574100
- Title: Temporal Context Consistency Above All: Enhancing Long-Term Anticipation by Learning and Enforcing Temporal Constraints
- Title(参考訳): 時間的文脈整合性--学習と時間的制約の強化による長期予測の促進
- Authors: Alberto Maté, Mariella Dimiccoli,
- Abstract要約: 本稿では,初期未トリミング映像区間の観察から,動画中の動作ラベルとその持続時間を予測する手法を提案する。
並列デコーディングを備えたエンコーダ・デコーダアーキテクチャ上に構築し,2つの重要なコントリビューションを行う。
LTA,EpicKitchen-55,EGTEA+,50Salads,Breakfastの4つのベンチマークデータセットに対して,本手法の有効性を検証する。
- 参考スコア(独自算出の注目度): 4.880243880711163
- License:
- Abstract: This paper proposes a method for long-term action anticipation (LTA), the task of predicting action labels and their duration in a video given the observation of an initial untrimmed video interval. We build on an encoder-decoder architecture with parallel decoding and make two key contributions. First, we introduce a bi-directional action context regularizer module on the top of the decoder that ensures temporal context coherence in temporally adjacent segments. Second, we learn from classified segments a transition matrix that models the probability of transitioning from one action to another and the sequence is optimized globally over the full prediction interval. In addition, we use a specialized encoder for the task of action segmentation to increase the quality of the predictions in the observation interval at inference time, leading to a better understanding of the past. We validate our methods on four benchmark datasets for LTA, the EpicKitchen-55, EGTEA+, 50Salads and Breakfast demonstrating superior or comparable performance to state-of-the-art methods, including probabilistic models and also those based on Large Language Models, that assume trimmed video as input. The code will be released upon acceptance.
- Abstract(参考訳): 本稿では,初期未トリミング映像区間の観察から,映像中の行動ラベルの予測タスクであるLTA(Long-term Action Precipation)を提案する。
並列デコーディングを備えたエンコーダ・デコーダアーキテクチャ上に構築し,2つの重要なコントリビューションを行う。
まず、デコーダの上部に双方向のアクションコンテキスト正規化モジュールを導入し、時間的隣接セグメントにおける時間的コンテキストコヒーレンスを保証する。
第二に、分類されたセグメントから、あるアクションから別のアクションへ遷移する確率をモデル化する遷移行列を学び、そのシーケンスは全予測間隔でグローバルに最適化される。
さらに,アクションセグメンテーションのタスクに特殊なエンコーダを用いて,推定時間における観測間隔における予測の質を高めることにより,過去の理解を深める。
我々は,LTA,EpicKitchen-55,EGTEA+,50Salads,Breakfastの4つのベンチマークデータセットを用いて,確率的モデルを含む最先端手法と,トリミングされた動画を入力とするLarge Language Modelsに基づく手法とを比較検討した。
コードは受理時にリリースされます。
関連論文リスト
- Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Unified Fully and Timestamp Supervised Temporal Action Segmentation via
Sequence to Sequence Translation [15.296933526770967]
本稿では,シーケンス to シーケンス (seq2seq) 変換によるビデオアクションセグメンテーションの統一フレームワークを提案する。
提案手法は,標準的な Transformer seq2seq 翻訳モデル上での一連の修正と補助的損失関数を含む。
当社のフレームワークは、フルおよびタイムスタンプ管理設定、パフォーマンス、競合する複数のデータセットの最先端の両方で一貫して動作します。
論文 参考訳(メタデータ) (2022-09-01T17:46:02Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Iterative Frame-Level Representation Learning And Classification For
Semi-Supervised Temporal Action Segmentation [25.08516972520265]
時間的アクションセグメンテーションは、各フレームのアクションを(長い)ビデオシーケンスで分類する。
時間的行動セグメント化のための第1の半教師付き手法を提案する。
論文 参考訳(メタデータ) (2021-12-02T16:47:24Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。