論文の概要: Activity Grammars for Temporal Action Segmentation
- arxiv url: http://arxiv.org/abs/2312.04266v1
- Date: Thu, 7 Dec 2023 12:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:52:29.903762
- Title: Activity Grammars for Temporal Action Segmentation
- Title(参考訳): テンポラルアクションセグメンテーションのための活動文法
- Authors: Dayoung Gong, Joonseok Lee, Deunsol Jung, Suha Kwak, Minsu Cho
- Abstract要約: 時間的アクションセグメンテーションは、トリミングされていないアクティビティビデオを一連のアクションセグメンテーションに変換することを目的としている。
本稿では,時間的行動セグメンテーションのための神経予測を導くための効果的な活動文法を提案する。
実験の結果,提案手法は時間的動作のセグメンテーションを性能と解釈性の両方の観点から著しく改善することが示された。
- 参考スコア(独自算出の注目度): 71.03141719666972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence prediction on temporal data requires the ability to understand
compositional structures of multi-level semantics beyond individual and
contextual properties. The task of temporal action segmentation, which aims at
translating an untrimmed activity video into a sequence of action segments,
remains challenging for this reason. This paper addresses the problem by
introducing an effective activity grammar to guide neural predictions for
temporal action segmentation. We propose a novel grammar induction algorithm
that extracts a powerful context-free grammar from action sequence data. We
also develop an efficient generalized parser that transforms frame-level
probability distributions into a reliable sequence of actions according to the
induced grammar with recursive rules. Our approach can be combined with any
neural network for temporal action segmentation to enhance the sequence
prediction and discover its compositional structure. Experimental results
demonstrate that our method significantly improves temporal action segmentation
in terms of both performance and interpretability on two standard benchmarks,
Breakfast and 50 Salads.
- Abstract(参考訳): 時間的データのシーケンス予測には、個人的および文脈的特性を超えた多レベル意味論の構成構造を理解する能力が必要である。
非トリミングされた動画を一連のアクションセグメントに変換するための時間的アクションセグメンテーションの課題は、この理由からいまだに困難である。
本稿では,時間的行動セグメンテーションのための神経予測を導くための効果的な活動文法を導入することで,この問題に対処する。
本稿では,行動系列データから強力な文脈自由文法を抽出する新しい文法誘導アルゴリズムを提案する。
また,フレームレベルの確率分布を帰納規則付き帰納文法に従って信頼性のある行動列に変換する,効率的な一般化構文解析器を開発した。
本手法は,時間的動作分節化のための任意のニューラルネットワークと組み合わせることで,シーケンス予測を強化し,構成構造を見出すことができる。
実験の結果,Breakfast と 50 Salad の2つの標準ベンチマークにおいて,時間的動作のセグメンテーションを性能と解釈性の両方の観点から大幅に改善することが示された。
関連論文リスト
- Action parsing using context features [0.0]
我々は、コンテキスト情報、特にビデオシーケンス内の他のアクションに関する時間的情報は、アクションセグメンテーションに価値があると論じる。
提案した解析アルゴリズムは,映像シーケンスを時間的に動作セグメントに分割する。
論文 参考訳(メタデータ) (2022-05-20T07:54:04Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Discontinuous Grammar as a Foreign Language [0.7412445894287709]
構成解析のためのシーケンス・ツー・シーケンス・モデルの枠組みを拡張した。
我々は不連続性を完全に生成できるいくつかの新規化を設計する。
提案手法はまず,主要な不連続なベンチマーク上でシーケンス・ツー・シーケンス・モデルをテストする。
論文 参考訳(メタデータ) (2021-10-20T08:58:02Z) - ASFormer: Transformer for Action Segmentation [9.509416095106493]
本稿では,アクションセグメンテーションタスクのための効率的なトランスフォーマーベースモデルASFormerを提案する。
信頼された範囲内で仮説空間を制約し、アクションセグメンテーションタスクが小さなトレーニングセットで適切なターゲット関数を学習するのに有益である。
我々は、長い入力シーケンスを効率的に処理する事前定義された階層表現パターンを適用した。
論文 参考訳(メタデータ) (2021-10-16T13:07:20Z) - Unsupervised Action Segmentation with Self-supervised Feature Learning
and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。
本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。
我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文 参考訳(メタデータ) (2021-05-29T00:29:40Z) - Learning to Abstract and Predict Human Actions [60.85905430007731]
ビデオにおける人間の活動の階層構造をモデル化し,行動予測におけるそのような構造の効果を実証する。
イベントの部分的階層を観察し、その構造を複数の抽象化レベルで将来の予測にロールアウトすることで、人間の活動の構造を学習できる階層型ニューラルネットワークであるHierarchical-Refresher-Anticipatorを提案する。
論文 参考訳(メタデータ) (2020-08-20T23:57:58Z) - Predicting Temporal Sets with Deep Neural Networks [50.53727580527024]
本稿では,時間集合予測のためのディープニューラルネットワークに基づく統合解を提案する。
ユニークな視点は、セットレベルの共起グラフを構築することで要素関係を学ぶことである。
我々は,要素や集合の時間依存性を適応的に学習するアテンションベースのモジュールを設計する。
論文 参考訳(メタデータ) (2020-06-20T03:29:02Z) - Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。
我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文 参考訳(メタデータ) (2020-04-28T00:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。