論文の概要: TimeGate: Conditional Gating of Segments in Long-range Activities
- arxiv url: http://arxiv.org/abs/2004.01808v1
- Date: Fri, 3 Apr 2020 23:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 04:56:04.431000
- Title: TimeGate: Conditional Gating of Segments in Long-range Activities
- Title(参考訳): timegate: 長距離活動におけるセグメントの条件ゲーティング
- Authors: Noureldien Hussein, Mihir Jain, Babak Ehteshami Bejnordi
- Abstract要約: 長距離活動から最も代表的なセグメントをサンプリングするためにTimeGateを提案する。
TimeGateは、セグメントの重要性がビデオコンテキストに大きく依存する長距離アクティビティに適している。
TimeGateは、長距離アクティビティのための3つのベンチマークであるCharades、Breakfast、MultiThumosの既存のCNNの計算を削減している。
- 参考スコア(独自算出の注目度): 11.65133132625962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When recognizing a long-range activity, exploring the entire video is
exhaustive and computationally expensive, as it can span up to a few minutes.
Thus, it is of great importance to sample only the salient parts of the video.
We propose TimeGate, along with a novel conditional gating module, for sampling
the most representative segments from the long-range activity. TimeGate has two
novelties that address the shortcomings of previous sampling methods, as
SCSampler. First, it enables a differentiable sampling of segments. Thus,
TimeGate can be fitted with modern CNNs and trained end-to-end as a single and
unified model.Second, the sampling is conditioned on both the segments and
their context. Consequently, TimeGate is better suited for long-range
activities, where the importance of a segment heavily depends on the video
context.TimeGate reduces the computation of existing CNNs on three benchmarks
for long-range activities: Charades, Breakfast and MultiThumos. In particular,
TimeGate reduces the computation of I3D by 50% while maintaining the
classification accuracy.
- Abstract(参考訳): 長い範囲のアクティビティを認識する場合、ビデオ全体を探索するのは、数分かかるので、徹底的で計算コストがかかる。
したがって、ビデオの健全な部分のみをサンプリングすることが非常に重要である。
長距離活動から最も代表的なセグメントを抽出するための条件付きゲーティングモジュールとともにTimeGateを提案する。
TimeGateには、以前のサンプリングメソッドの欠点に対処する2つの新しい特徴がある。
まず、セグメントの異なるサンプリングを可能にする。
したがって、TimeGateは最新のCNNと訓練されたエンドツーエンドを単一で統一されたモデルとして使用することができ、サンプリングはセグメントとそれらのコンテキストの両方で条件付けされる。
その結果、TimeGateは、セグメントの重要性がビデオコンテキストに大きく依存する長距離アクティビティに適している。TimeGateは、長距離アクティビティのための3つのベンチマークであるCharades、Breakfast、MultiThumosの既存のCNNの計算を減らす。
特にTimeGateは、分類精度を維持しながら、I3Dの計算を50%削減する。
関連論文リスト
- How Much Temporal Long-Term Context is Needed for Action Segmentation? [16.89998201009075]
ビデオのフルコンテキストをキャプチャするために,スパークアテンションを利用するトランスフォーマーベースモデルを導入する。
本実験は,時間的動作セグメンテーションの最適性能を得るためには,ビデオの全コンテキストをモデル化する必要があることを示す。
論文 参考訳(メタデータ) (2023-08-22T11:20:40Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - Finding Short Signals in Long Irregular Time Series with Continuous-Time
Attention Policy Networks [18.401817124823832]
不規則にサンプリングされた時系列(ITS)は、医療のような高インパクト領域に固有のものであり、不均一な間隔で測定が時間とともに収集される。
入力系列の時系列の高関連部分を明示的に求め,多変量 ITS を分類するモデル CAT を提案する。
合成データと実データを用いて、CATは長い不規則な時系列で短い信号を見つけることで、最先端の10の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-08T13:44:36Z) - Multi-scale Anomaly Detection for Big Time Series of Industrial Sensors [50.6434162489902]
そこで本研究では,自然にスムーズな時系列を復号・符号化する手法であるMissGANを提案する。
MissGANはラベルを必要としないし、通常のインスタンスのラベルだけを必要とするので、広く適用できます。
論文 参考訳(メタデータ) (2022-04-18T04:34:15Z) - Fusing RGBD Tracking and Segmentation Tree Sampling for Multi-Hypothesis
Volumetric Segmentation [6.853379171946806]
マルチハイポテシストラッキング(MST)は,シーン変化におけるボリュームセグメンテーションの新しい手法である。
2つの主な革新により、この困難な問題に取り組むことができます。
本手法は, シミュレーションと現実のテーブルトップ環境において評価する。
論文 参考訳(メタデータ) (2021-04-01T02:17:18Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Counting Out Time: Class Agnostic Video Repetition Counting in the Wild [82.26003709476848]
本稿では,アクションがビデオで繰り返される期間を推定するためのアプローチを提案する。
アプローチの要点は、周期予測モジュールを時間的自己相似性を使用するように制約することにある。
我々は、大規模なラベルなしビデオコレクションから生成される合成データセットを用いて、Repnetと呼ばれるこのモデルをトレーニングする。
論文 参考訳(メタデータ) (2020-06-27T18:00:42Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z) - STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos [17.232631075144592]
例えば、ビデオのセグメンテーションは、通常、トラッキング・バイ・検出のパラダイムに従っている。
単一段階における時間と空間をまたいだインスタンスのセグメント化と追跡を行う新しい手法を提案する。
提案手法は,複数のデータセットやタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T18:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。