論文の概要: SVIP: Sequence VerIfication for Procedures in Videos
- arxiv url: http://arxiv.org/abs/2112.06447v2
- Date: Tue, 14 Dec 2021 06:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 12:37:28.886243
- Title: SVIP: Sequence VerIfication for Procedures in Videos
- Title(参考訳): SVIP:動画における手順のシーケンス検証
- Authors: Yicheng Qian, Weixin Luo, Dongze Lian, Xu Tang, Peilin Zhao, Shenghua
Gao
- Abstract要約: ステップレベルの変換を伴う負のアクションシーケンスと同一のアクションシーケンスを実行するポジティブなビデオペアを区別することを目的とした,新しいシーケンス検証タスクを提案する。
このような困難なタスクは、事前のアクション検出やセグメンテーションなしで、オープンセット設定に置かれる。
我々は、化学実験において、あらゆる段階的な変換を列挙したスクリプト付きビデオデータセットを収集する。
- 参考スコア(独自算出の注目度): 68.07865790764237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel sequence verification task that aims to
distinguish positive video pairs performing the same action sequence from
negative ones with step-level transformations but still conducting the same
task. Such a challenging task resides in an open-set setting without prior
action detection or segmentation that requires event-level or even frame-level
annotations. To that end, we carefully reorganize two publicly available
action-related datasets with step-procedure-task structure. To fully
investigate the effectiveness of any method, we collect a scripted video
dataset enumerating all kinds of step-level transformations in chemical
experiments. Besides, a novel evaluation metric Weighted Distance Ratio is
introduced to ensure equivalence for different step-level transformations
during evaluation. In the end, a simple but effective baseline based on the
transformer with a novel sequence alignment loss is introduced to better
characterize long-term dependency between steps, which outperforms other action
recognition methods. Codes and data will be released.
- Abstract(参考訳): 本稿では,ステップレベルの変換を伴う負のアクションシーケンスと同一のアクションシーケンスを実行する正のビデオペアを区別することを目的とした,新しいシーケンス検証タスクを提案する。
このような困難なタスクは、イベントレベルやフレームレベルのアノテーションを必要とする事前のアクション検出やセグメンテーションを必要とせずに、オープンセットに置かれる。
そこで我々は,ステッププロデュース・タスク構造を持つ2つの公開アクション関連データセットを慎重に再構成した。
化学実験において,すべてのステップレベルの変換を列挙したスクリプト付きビデオデータセットを収集し,その有効性について検討した。
また、評価中の異なるステップレベル変換の等価性を保証するために、新しい評価基準重み付き距離比を導入する。
最後に、新しいシーケンスアライメント損失を有するトランスをベースとした単純だが効果的なベースラインを導入し、ステップ間の長期依存性をより正確に評価し、他のアクション認識手法よりも優れている。
コードとデータはリリースされる。
関連論文リスト
- BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation [48.08416841005715]
両面操作に適したキーポーズ条件の整合性ポリシーを導入する。
階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。
シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
論文 参考訳(メタデータ) (2024-06-14T14:49:12Z) - Online Action Representation using Change Detection and Symbolic Programming [0.3937354192623676]
提案手法では,動作シーケンスを自動的にセグメント化するために変更検出アルゴリズムを用いる。
クラス繰り返し検出の下流タスクにおいて,この表現の有効性を示す。
実験の結果,提案手法はオンラインで動作しているにもかかわらず,既存手法と同等あるいは同等に動作していることがわかった。
論文 参考訳(メタデータ) (2024-05-19T10:31:59Z) - Non-Sequential Graph Script Induction via Multimedia Grounding [129.83134296316493]
我々は、学習タスクのための明示的なグラフスクリプトを生成することと、部分的なステップシーケンスが与えられた将来のステップを予測することの両方が可能なスクリプト知識モデルを訓練する。
人間による評価では、我々のモデルはWikiHowの線形ベースラインを48.76%上回り、シーケンシャルなステップ関係と非シーケンシャルなステップ関係を捉えた。
論文 参考訳(メタデータ) (2023-05-27T18:13:17Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - Transformers in Action:Weakly Supervised Action Segmentation [81.18941007536468]
等価なRNNモデルに対して, 動作アライメント精度を向上させるためにトランスフォーマーを適用する方法を示す。
また、推論時により高速に書き起こしを選択するための補足的な書き起こし埋め込み手法を提案する。
提案手法をベンチマークデータセット全体にわたって評価し,トランスフォーマーの適用性をよりよく理解する。
論文 参考訳(メタデータ) (2022-01-14T21:15:58Z) - Hierarchical Modeling for Task Recognition and Action Segmentation in
Weakly-Labeled Instructional Videos [6.187780920448871]
本稿では,弱いラベル付き指導ビデオにおけるタスク認識とアクションセグメンテーションに焦点を当てた。
本稿では,意味的階層と時間的階層を利用して指導ビデオの上位レベルタスクを認識できる2ストリームフレームワークを提案する。
提案手法では, 微粒な動作系列の推論を制約するために, 予測タスクを用いる。
論文 参考訳(メタデータ) (2021-10-12T02:32:15Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。