論文の概要: A Closer Look at Temporal Ordering in the Segmentation of Instructional
Videos
- arxiv url: http://arxiv.org/abs/2209.15501v1
- Date: Fri, 30 Sep 2022 14:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 15:50:23.134498
- Title: A Closer Look at Temporal Ordering in the Segmentation of Instructional
Videos
- Title(参考訳): 授業映像のセグメンテーションにおける時間順のクローズアップ
- Authors: Anil Batra, Shreyank Gowda, Laura Sevilla-Lara, Frank Keller
- Abstract要約: 本稿では,PSS(Process and Summarization)を概観し,現在の手法に対する3つの根本的な改善を提案する。
セグメントの順序を考慮に入れた動的プログラミングに基づく新しいセグメンテーション指標を提案する。
本稿では,セグメントマッピングの時間的順序を制約するマッチングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 17.712793578388126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the steps required to perform a task is an important skill for
AI systems. Learning these steps from instructional videos involves two
subproblems: (i) identifying the temporal boundary of sequentially occurring
segments and (ii) summarizing these steps in natural language. We refer to this
task as Procedure Segmentation and Summarization (PSS). In this paper, we take
a closer look at PSS and propose three fundamental improvements over current
methods. The segmentation task is critical, as generating a correct summary
requires the step to be identified first. However, current segmentation metrics
often overestimate the segmentation quality because they do not incorporate the
temporal order of segments. We propose a new segmentation metric based on
dynamic programming that takes into account the order of segments. Current PSS
methods are typically trained by proposing segments, matching them with the
ground truth and computing a loss. However, much like segmentation metrics,
existing matching algorithms do not consider the temporal order of the mapping
between candidate segments and the ground truth. We propose a matching
algorithm that constrains the temporal order of segment mapping, and is also
differentiable. Lastly, we introduce multi-modal feature training for PSS,
which further improves segmentation. We evaluate our approach on two
instructional video datasets (YouCook2 and Tasty) and improve the state of the
art by a margin of $\sim7\%$ and $\sim2.5\%$ for procedure segmentation and
summarization, respectively.
- Abstract(参考訳): タスクを実行するために必要なステップを理解することは、AIシステムにとって重要なスキルである。
授業ビデオからこれらのステップを学ぶには、以下の2つのサブプロブレムがある。
(i)順次発生するセグメントの時間的境界を特定すること、及び
(ii)これらのステップを自然言語で要約する。
我々は、このタスクをプロシージャセグメンテーションと要約(PSS)と呼ぶ。
本稿では,pssを詳細に検討し,現在の手法に対する3つの基本的な改善を提案する。
正しい要約を生成するには、最初に識別するステップが必要であるため、セグメンテーションタスクは重要です。
しかしながら、現在のセグメンテーション指標は、しばしばセグメントの時間順序を含まないため、セグメンテーションの品質を過大評価する。
本稿では,セグメントの順序を考慮した動的プログラミングに基づく新しいセグメンテーションメトリックを提案する。
現在のPSS法は一般的にセグメントを提案し、それらを基礎的な真実とマッチングし、損失を計算することによって訓練される。
しかし、セグメンテーションメトリクスと同様に、既存のマッチングアルゴリズムは候補セグメントと基底真理の間のマッピングの時間順序を考慮しない。
本稿では,セグメントマッピングの時間順序を制約し,微分可能なマッチングアルゴリズムを提案する。
最後に,pssのマルチモーダル機能トレーニングを導入し,セグメンテーションをさらに改善する。
我々は,2つの指導ビデオデータセット(YouCook2とTasty)に対するアプローチを評価し,プロシージャセグメンテーションとサマリゼーションのマージンを$\sim7\%$と$\sim2.5\%$で改善した。
関連論文リスト
- Image Segmentation in Foundation Model Era: A Survey [99.19456390358211]
イメージセグメンテーションにおける現在の研究は、これらの進歩に関連する特徴、課題、解決策の詳細な分析を欠いている。
本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。
現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。
論文 参考訳(メタデータ) (2024-08-23T10:07:59Z) - Online Action Representation using Change Detection and Symbolic Programming [0.3937354192623676]
提案手法では,動作シーケンスを自動的にセグメント化するために変更検出アルゴリズムを用いる。
クラス繰り返し検出の下流タスクにおいて,この表現の有効性を示す。
実験の結果,提案手法はオンラインで動作しているにもかかわらず,既存手法と同等あるいは同等に動作していることがわかった。
論文 参考訳(メタデータ) (2024-05-19T10:31:59Z) - Temporal Segment Transformer for Action Segmentation [54.25103250496069]
本稿では,テキスト・セグメント・トランスフォーマ (textittemporal segment transformer) と呼ぶアテンション・ベース・アプローチを提案する。
主な考え方は、セグメントとフレームの間の注意を用いてセグメント表現を識別することであり、またセグメント間の時間的相関を捉えるためにセグメント間注意を用いる。
このアーキテクチャは,50Salads,GTEA,Breakfastのベンチマークにおいて,最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-02-25T13:05:57Z) - A Survey on Label-efficient Deep Segmentation: Bridging the Gap between
Weak Supervision and Dense Prediction [115.9169213834476]
本稿では,ラベル効率の高いセグメンテーション手法について概説する。
まず,様々な種類の弱いラベルによって提供される監督に従って,これらの手法を整理する分類法を開発する。
次に,既存のラベル効率のセグメンテーション手法を統一的な視点から要約する。
論文 参考訳(メタデータ) (2022-07-04T06:21:01Z) - Action parsing using context features [0.0]
我々は、コンテキスト情報、特にビデオシーケンス内の他のアクションに関する時間的情報は、アクションセグメンテーションに価値があると論じる。
提案した解析アルゴリズムは,映像シーケンスを時間的に動作セグメントに分割する。
論文 参考訳(メタデータ) (2022-05-20T07:54:04Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Few-Shot Action Recognition with Compromised Metric via Optimal
Transport [31.834843714684343]
少数の画像分類の広い研究にもかかわらず、少数のアクション認識はまだ成熟していません。
これらのアルゴリズムをアクション認識に適用する主な障害の1つは、ビデオの複雑な構造です。
これら2つのソリューションの利点を組み合わせるために、CMOT(Compromised Metric via Optimal Transport)を提案します。
論文 参考訳(メタデータ) (2021-04-08T12:42:05Z) - Fusing RGBD Tracking and Segmentation Tree Sampling for Multi-Hypothesis
Volumetric Segmentation [6.853379171946806]
マルチハイポテシストラッキング(MST)は,シーン変化におけるボリュームセグメンテーションの新しい手法である。
2つの主な革新により、この困難な問題に取り組むことができます。
本手法は, シミュレーションと現実のテーブルトップ環境において評価する。
論文 参考訳(メタデータ) (2021-04-01T02:17:18Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - STEP: Segmenting and Tracking Every Pixel [107.23184053133636]
新しいベンチマークを示す: Segmenting and Tracking Every Pixel (STEP)
私たちの仕事は、空間領域と時間領域の両方で密な解釈を必要とする現実世界の設定で、このタスクをターゲットとする最初のものです。
性能を測定するために,新しい評価指標と追跡品質(STQ)を提案する。
論文 参考訳(メタデータ) (2021-02-23T18:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。