論文の概要: How Much Temporal Long-Term Context is Needed for Action Segmentation?
- arxiv url: http://arxiv.org/abs/2308.11358v1
- Date: Tue, 22 Aug 2023 11:20:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 18:21:25.460726
- Title: How Much Temporal Long-Term Context is Needed for Action Segmentation?
- Title(参考訳): アクションセグメンテーションにどのくらいの時間的長期的コンテキストが必要か?
- Authors: Emad Bahrami, Gianpiero Francesca, Juergen Gall
- Abstract要約: ビデオのフルコンテキストをキャプチャするために,スパークアテンションを利用するトランスフォーマーベースモデルを導入する。
本実験は,時間的動作セグメンテーションの最適性能を得るためには,ビデオの全コンテキストをモデル化する必要があることを示す。
- 参考スコア(独自算出の注目度): 16.89998201009075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling long-term context in videos is crucial for many fine-grained tasks
including temporal action segmentation. An interesting question that is still
open is how much long-term temporal context is needed for optimal performance.
While transformers can model the long-term context of a video, this becomes
computationally prohibitive for long videos. Recent works on temporal action
segmentation thus combine temporal convolutional networks with self-attentions
that are computed only for a local temporal window. While these approaches show
good results, their performance is limited by their inability to capture the
full context of a video. In this work, we try to answer how much long-term
temporal context is required for temporal action segmentation by introducing a
transformer-based model that leverages sparse attention to capture the full
context of a video. We compare our model with the current state of the art on
three datasets for temporal action segmentation, namely 50Salads, Breakfast,
and Assembly101. Our experiments show that modeling the full context of a video
is necessary to obtain the best performance for temporal action segmentation.
- Abstract(参考訳): ビデオにおける長期コンテキストのモデリングは、時間的アクションセグメンテーションを含む多くのきめ細かいタスクに不可欠である。
まだオープンである興味深い質問は、最適なパフォーマンスにどのくらい長期的な時間的コンテキストが必要なのかである。
トランスフォーマーはビデオの長期的コンテキストをモデル化できるが、長いビデオでは計算が禁じられる。
時間的動作セグメンテーションに関する最近の研究は、時間的畳み込みネットワークと、局所的な時間的ウィンドウに対してのみ計算される自己アテンションを組み合わせたものである。
これらのアプローチは良い結果を示すが、ビデオの全コンテキストをキャプチャできないため、パフォーマンスは制限される。
本研究では,ビデオのフルコンテキストを捉えるために,スパークアテンションを利用するトランスフォーマーモデルを導入することで,時間的動作のセグメンテーションに長時間の時間的コンテキストがどの程度必要かに答えようとする。
このモデルと,50サラド,朝食,アセンブリ101の3つの時間的行動分節化のためのデータセットの現況を比較した。
本実験は,時間的動作セグメンテーションの最適性能を得るためには,ビデオの全コンテキストをモデル化する必要があることを示す。
関連論文リスト
- Top-down Activity Representation Learning for Video Question Answering [4.236280446793381]
複雑な階層的人間活動の獲得は、高性能ビデオ質問応答(VideoQA)の実現に不可欠である
長時間のビデオシーケンスを空間画像領域に変換し、ビデオQAタスクのためのマルチモーダルモデルLLaVAを微調整する。
提案手法は,STARタスク,特に78.4%の精度で,NExTQAタスクの2.8ポイント以上を達成している。
論文 参考訳(メタデータ) (2024-09-12T04:43:27Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - TemporalMaxer: Maximize Temporal Context with only Max Pooling for
Temporal Action Localization [52.234877003211814]
我々は,抽出したビデオクリップの特徴から情報を最大化しながら,長期の時間的文脈モデリングを最小化するTemporalMaxerを紹介する。
我々は、TemporalMaxerが、長期時間文脈モデリングを利用した他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-16T03:11:26Z) - Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding
in Long Videos [60.86880787242561]
ビデオ時間グラウンドは、クエリ記述にマッチしたビデオセグメントをピンポイントすることを目的としている。
高速な時間的グラウンド化のためのエンドツーエンドのフレームワークを提案する。
提案手法は最先端技術よりも優れ,textbf14.6$times$ / textbf102.8$times$高効率を実現している。
論文 参考訳(メタデータ) (2023-03-15T03:54:43Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Streaming Video Temporal Action Segmentation In Real Time [2.8728707559692475]
本稿では,リアルタイムの時間的動作分割タスクをリアルタイムにストリーミングするマルチモーダリティモデルを提案する。
我々のモデルは、最先端モデル計算の40%未満の時間で人間の動作をリアルタイムにセグメントし、全映像モデルの精度の90%を達成している。
論文 参考訳(メタデータ) (2022-09-28T03:27:37Z) - Long Short-Term Relation Networks for Video Action Detection [155.13392337831166]
本稿では,Long Short-Term Relation Networks (LSTR)について述べる。
LSTRは、ビデオアクション検出のための拡張機能と関連して集約し、伝播する。
4つのベンチマークデータセットで大規模な実験を行う。
論文 参考訳(メタデータ) (2020-03-31T10:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。