論文の概要: HAT: History-Augmented Anchor Transformer for Online Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2408.06437v1
- Date: Mon, 12 Aug 2024 18:29:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 19:27:43.767195
- Title: HAT: History-Augmented Anchor Transformer for Online Temporal Action Localization
- Title(参考訳): HAT: オンライン・テンポラル・アクション・ローカライゼーションのための履歴強化アンカー・トランス
- Authors: Sakib Reza, Yuexi Zhang, Mohsen Moghaddam, Octavia Camps,
- Abstract要約: 本報告では,OnTAL 用 History-Augmented Anchor Transformer (HAT) フレームワークについて述べる。
歴史的文脈を統合することにより,長期情報と短期情報との相乗効果が向上する。
我々は,PREGO(Procedural egocentric)データセットと標準非PREGOOnTALデータセットの両方を用いて,本モデルを評価した。
- 参考スコア(独自算出の注目度): 3.187381965457262
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Online video understanding often relies on individual frames, leading to frame-by-frame predictions. Recent advancements such as Online Temporal Action Localization (OnTAL), extend this approach to instance-level predictions. However, existing methods mainly focus on short-term context, neglecting historical information. To address this, we introduce the History-Augmented Anchor Transformer (HAT) Framework for OnTAL. By integrating historical context, our framework enhances the synergy between long-term and short-term information, improving the quality of anchor features crucial for classification and localization. We evaluate our model on both procedural egocentric (PREGO) datasets (EGTEA and EPIC) and standard non-PREGO OnTAL datasets (THUMOS and MUSES). Results show that our model outperforms state-of-the-art approaches significantly on PREGO datasets and achieves comparable or slightly superior performance on non-PREGO datasets, underscoring the importance of leveraging long-term history, especially in procedural and egocentric action scenarios. Code is available at: https://github.com/sakibreza/ECCV24-HAT/
- Abstract(参考訳): オンラインビデオ理解はしばしば個々のフレームに依存し、フレーム単位での予測につながる。
オンライン・テンポラル・アクション・ローカライゼーション(Ontal)のような最近の進歩は、このアプローチをインスタンスレベルの予測にまで拡張している。
しかし、既存の手法は主に、歴史的情報を無視する短期的な文脈に焦点を当てている。
これを解決するために,OnTAL の History-Augmented Anchor Transformer (HAT) Framework を紹介する。
歴史的文脈を統合することにより,長期情報と短期情報との相乗効果が向上し,分類やローカライゼーションに欠かせないアンカー特性の質が向上する。
手続き型エゴセントリックデータセット (EGTEA, EPIC) と標準非PREGOオンメタルデータセット (THUMOS, MUSES) を比較した。
その結果,PREGOデータセットでは,PREGOデータセットと同等あるいはわずかに優れたパフォーマンスを達成し,特に手続き的およびエゴシックなアクションシナリオにおいて,長期的履歴を活用することの重要性を浮き彫りにしている。
コードは、https://github.com/sakibreza/ECCV24-HAT/で入手できる。
関連論文リスト
- ONSEP: A Novel Online Neural-Symbolic Framework for Event Prediction Based on Large Language Model [10.137013634329582]
オンラインニューラル・シンボリックイベント予測フレームワークについて紹介する。
ONSEPは動的因果ルールマイニングと二重履歴拡張生成を取り入れている。
我々のフレームワークは、多様なデータセットにわたる顕著なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-08-14T22:28:19Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Exploring the Limits of Historical Information for Temporal Knowledge
Graph Extrapolation [59.417443739208146]
本稿では,歴史的コントラスト学習の新しい学習枠組みに基づくイベント予測モデルを提案する。
CENETは、最も潜在的なエンティティを識別するために、歴史的および非歴史的依存関係の両方を学ぶ。
提案したモデルを5つのベンチマークグラフで評価する。
論文 参考訳(メタデータ) (2023-08-29T03:26:38Z) - Span-Selective Linear Attention Transformers for Effective and Robust
Schema-Guided Dialogue State Tracking [7.176787451868171]
本稿では,従来の手法よりも優れた一般化と効率を実現する新しいアーキテクチャであるSPLATを紹介する。
本稿では,SGD(Guided Dialogue)とMultiWOZ(MultiWOZ)データセットにおけるモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-06-15T17:59:31Z) - Temporal Knowledge Graph Reasoning with Historical Contrastive Learning [24.492458924487863]
我々はContrastive Event Network(CENET)と呼ばれる新しいイベント予測モデルを提案する。
CENETは、ヒストリと非ヒストリの両方の依存関係を学び、与えられたクエリに最もよくマッチする最も潜在的なエンティティを識別する。
推論プロセスの間、CENETは最終的な結果を生成するためにマスクベースの戦略を採用している。
論文 参考訳(メタデータ) (2022-11-20T08:32:59Z) - SimOn: A Simple Framework for Online Temporal Action Localization [51.27476730635852]
一般的なTransformerアーキテクチャを用いて,アクションインスタンスの予測を学習するSimOnというフレームワークを提案する。
THUMOS14とActivityNet1.3データセットの実験結果は、我々のモデルが従来の手法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2022-11-08T04:50:54Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。