論文の概要: SVIP: Sequence VerIfication for Procedures in Videos
- arxiv url: http://arxiv.org/abs/2112.06447v1
- Date: Mon, 13 Dec 2021 07:03:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 17:27:59.433354
- Title: SVIP: Sequence VerIfication for Procedures in Videos
- Title(参考訳): SVIP:動画における手順のシーケンス検証
- Authors: Yicheng Qian, Weixin Luo, Dongze Lian, Xu Tang, Peilin Zhao, Shenghua
Gao
- Abstract要約: ステップレベルの変換を持つ負のものと同一のアクションシーケンスを実行する正の動画ペアを区別することを目的とした,新しいシーケンス検証タスクを提案する。
このようなタスクは、優先順位検出やセグメンテーションを必要とせず、オープンセットの設定に置かれる。
- 参考スコア(独自算出の注目度): 68.07865790764237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel sequence verificationtask that aims to
distinguish positive video pairs performingthe same action sequence from
negative ones with step-leveltransformations but still conducting the same
task. Such achallenging task resides in an open-set setting without prioraction
detection or segmentation that requires event-levelor even frame-level
annotations. To that end, we carefullyreorganize two publicly available
action-related datasetswith step-procedure-task structure. To fully investigate
theeffectiveness of any method, we collect a scripted videodataset enumerating
all kinds of step-level transformationsin chemical experiments. Besides, a
novel evaluation met-ric Weighted Distance Ratio is introduced to ensure
equiva-lence for different step-level transformations during evalua-tion. In
the end, a simple but effective baseline based on thetransformer with a novel
sequence alignment loss is intro-duced to better characterize long-term
dependency betweensteps, which outperforms other action recognition
methods.Codes and data will be released.
- Abstract(参考訳): 本稿では,ステップレベルの変換を持つ負のアクションシーケンスと同一のアクションシーケンスを実行する正のビデオペアを区別する,新しいシーケンス検証タスクを提案する。
このような混乱するタスクは、優先順位検出やセグメンテーションなしにオープンな設定に置かれ、イベントレベルやフレームレベルのアノテーションさえ必要とします。
そこで我々は,ステッププロデュース・タスク構造を持つ2つの公開アクション関連データセットを慎重に再構成した。
提案手法の有効性について検討するため, 各種ステップレベルの変換実験を収録したビデオデータセットを収録した。
また, 異なるステップレベル変換の等価性を確保するために, 新たな評価式メットリック距離比を導入する。
最後に、新しいシーケンスアライメント損失を持つトランスフォーマに基づく単純かつ効果的なベースラインが導入され、ステップ間の長期的な依存性を特徴付けし、他のアクション認識メソッドよりも優れる。
関連論文リスト
- BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation [48.08416841005715]
両面操作に適したキーポーズ条件の整合性ポリシーを導入する。
階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。
シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
論文 参考訳(メタデータ) (2024-06-14T14:49:12Z) - Online Action Representation using Change Detection and Symbolic Programming [0.3937354192623676]
提案手法では,動作シーケンスを自動的にセグメント化するために変更検出アルゴリズムを用いる。
クラス繰り返し検出の下流タスクにおいて,この表現の有効性を示す。
実験の結果,提案手法はオンラインで動作しているにもかかわらず,既存手法と同等あるいは同等に動作していることがわかった。
論文 参考訳(メタデータ) (2024-05-19T10:31:59Z) - Non-Sequential Graph Script Induction via Multimedia Grounding [129.83134296316493]
我々は、学習タスクのための明示的なグラフスクリプトを生成することと、部分的なステップシーケンスが与えられた将来のステップを予測することの両方が可能なスクリプト知識モデルを訓練する。
人間による評価では、我々のモデルはWikiHowの線形ベースラインを48.76%上回り、シーケンシャルなステップ関係と非シーケンシャルなステップ関係を捉えた。
論文 参考訳(メタデータ) (2023-05-27T18:13:17Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - Transformers in Action:Weakly Supervised Action Segmentation [81.18941007536468]
等価なRNNモデルに対して, 動作アライメント精度を向上させるためにトランスフォーマーを適用する方法を示す。
また、推論時により高速に書き起こしを選択するための補足的な書き起こし埋め込み手法を提案する。
提案手法をベンチマークデータセット全体にわたって評価し,トランスフォーマーの適用性をよりよく理解する。
論文 参考訳(メタデータ) (2022-01-14T21:15:58Z) - Hierarchical Modeling for Task Recognition and Action Segmentation in
Weakly-Labeled Instructional Videos [6.187780920448871]
本稿では,弱いラベル付き指導ビデオにおけるタスク認識とアクションセグメンテーションに焦点を当てた。
本稿では,意味的階層と時間的階層を利用して指導ビデオの上位レベルタスクを認識できる2ストリームフレームワークを提案する。
提案手法では, 微粒な動作系列の推論を制約するために, 予測タスクを用いる。
論文 参考訳(メタデータ) (2021-10-12T02:32:15Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。