論文の概要: Unified Fully and Timestamp Supervised Temporal Action Segmentation via
Sequence to Sequence Translation
- arxiv url: http://arxiv.org/abs/2209.00638v1
- Date: Thu, 1 Sep 2022 17:46:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 14:03:00.748248
- Title: Unified Fully and Timestamp Supervised Temporal Action Segmentation via
Sequence to Sequence Translation
- Title(参考訳): シーケンスからシーケンスへの変換による完全かつタイムスタンプ教師付き時間行動分節化
- Authors: Nadine Behrmann, S. Alireza Golestaneh, Zico Kolter, Juergen Gall,
Mehdi Noroozi
- Abstract要約: 本稿では,シーケンス to シーケンス (seq2seq) 変換によるビデオアクションセグメンテーションの統一フレームワークを提案する。
提案手法は,標準的な Transformer seq2seq 翻訳モデル上での一連の修正と補助的損失関数を含む。
当社のフレームワークは、フルおよびタイムスタンプ管理設定、パフォーマンス、競合する複数のデータセットの最先端の両方で一貫して動作します。
- 参考スコア(独自算出の注目度): 15.296933526770967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a unified framework for video action segmentation via
sequence to sequence (seq2seq) translation in a fully and timestamp supervised
setup. In contrast to current state-of-the-art frame-level prediction methods,
we view action segmentation as a seq2seq translation task, i.e., mapping a
sequence of video frames to a sequence of action segments. Our proposed method
involves a series of modifications and auxiliary loss functions on the standard
Transformer seq2seq translation model to cope with long input sequences opposed
to short output sequences and relatively few videos. We incorporate an
auxiliary supervision signal for the encoder via a frame-wise loss and propose
a separate alignment decoder for an implicit duration prediction. Finally, we
extend our framework to the timestamp supervised setting via our proposed
constrained k-medoids algorithm to generate pseudo-segmentations. Our proposed
framework performs consistently on both fully and timestamp supervised
settings, outperforming or competing state-of-the-art on several datasets.
- Abstract(参考訳): 本稿では,シーケンス to シーケンス (seq2seq) 変換によるビデオアクションセグメンテーションを,完全かつタイムスタンプによる教師付きセットアップで統合したフレームワークを提案する。
現在の最先端のフレームレベル予測手法とは対照的に、アクションセグメンテーションをseq2seq翻訳タスク、すなわちビデオフレームのシーケンスをアクションセグメンテーションのシーケンスにマッピングする。
提案手法では、短い出力シーケンスと比較的少ないビデオに対して長い入力シーケンスに対処するために、標準トランスフォーマーseq2seq変換モデルの一連の修正と補助損失関数を含む。
フレーム方向損失によるエンコーダの補助監督信号を取り込んで,暗黙的持続時間予測のための分離アライメントデコーダを提案する。
最後に,提案した制約付きk-medoidsアルゴリズムを用いてタイムスタンプ制御設定に拡張し,擬似セグメンテーションを生成する。
提案するフレームワークは,完全かつタイムスタンプの教師付き設定でも,複数のデータセットの最先端設定よりもパフォーマンスが優れている。
関連論文リスト
- Activity Grammars for Temporal Action Segmentation [71.03141719666972]
時間的アクションセグメンテーションは、トリミングされていないアクティビティビデオを一連のアクションセグメンテーションに変換することを目的としている。
本稿では,時間的行動セグメンテーションのための神経予測を導くための効果的な活動文法を提案する。
実験の結果,提案手法は時間的動作のセグメンテーションを性能と解釈性の両方の観点から著しく改善することが示された。
論文 参考訳(メタデータ) (2023-12-07T12:45:33Z) - MEGA: Multimodal Alignment Aggregation and Distillation For Cinematic
Video Segmentation [10.82074185158027]
撮影用長ビデオセグメンテーションのためのマルチモーダルアライメント(MultimodalalignedmEnt aGregation and distillAtion,MEGA)を提案する。
可変長と異なるモードの入力をアライメント位置符号化で粗いアライメントする。
MEGAは、モダリティ間でラベルを同期し、転送するために、新しい対照的な損失を採用しており、ビデオショット上のラベル付きシナプス文からのアクセグメンテーションを可能にしている。
論文 参考訳(メタデータ) (2023-08-22T04:23:59Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Distill and Collect for Semi-Supervised Temporal Action Segmentation [0.0]
本稿では,注釈付きおよび注釈なしのビデオシーケンスからの知識を同時に活用する時間的行動分割タスクを提案する。
提案手法では, 繰り返し精製し, 最終的にフレーム予測を組み合わすマルチストリーム蒸留を用いる。
また,本モデルでは,後に時間的制約として使用されるアクション順序を予測し,無注釈ビデオの監督の欠如に対処するため,フレームラベルを推定する。
論文 参考訳(メタデータ) (2022-11-02T17:34:04Z) - A Generalized & Robust Framework For Timestamp Supervision in Temporal
Action Segmentation [79.436224998992]
時間的アクションセグメンテーションでは、Timestampの監督はビデオシーケンスごとにわずかにラベル付きフレームを必要とする。
本稿では,未ラベルフレームのラベルの不確実性を利用した期待最大化に基づく新しい手法を提案する。
提案手法はSOTA結果を生成し,複数のメトリクスやデータセットの完全教師付き設定を超えている。
論文 参考訳(メタデータ) (2022-07-20T18:30:48Z) - Efficient Long Sequence Encoding via Synchronization [29.075962393432857]
階層符号化のための同期機構を提案する。
我々のアプローチはまずセグメント間でアンカートークンを識別し、元の入力シーケンスでの役割によってグループ化する。
我々のアプローチは、効率を保ちながらセグメント間のグローバル情報交換を改善することができる。
論文 参考訳(メタデータ) (2022-03-15T04:37:02Z) - Transformers in Action:Weakly Supervised Action Segmentation [81.18941007536468]
等価なRNNモデルに対して, 動作アライメント精度を向上させるためにトランスフォーマーを適用する方法を示す。
また、推論時により高速に書き起こしを選択するための補足的な書き起こし埋め込み手法を提案する。
提案手法をベンチマークデータセット全体にわたって評価し,トランスフォーマーの適用性をよりよく理解する。
論文 参考訳(メタデータ) (2022-01-14T21:15:58Z) - Learning to Align Sequential Actions in the Wild [123.62879270881807]
本研究では,多様な時間的変動を伴う野生における逐次行動の整合性を示すアプローチを提案する。
我々のモデルは単調列と非単調列の両方を考慮に入れている。
自己教師型シーケンシャルな行動表現学習において,我々のアプローチは一貫して最先端の行動表現学習に勝っていることを示す。
論文 参考訳(メタデータ) (2021-11-17T18:55:36Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。