論文の概要: TBT-Former: Learning Temporal Boundary Distributions for Action Localization
- arxiv url: http://arxiv.org/abs/2512.01298v1
- Date: Mon, 01 Dec 2025 05:38:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.698798
- Title: TBT-Former: Learning Temporal Boundary Distributions for Action Localization
- Title(参考訳): TBT-Former:アクションローカライゼーションのための時間境界分布の学習
- Authors: Thisara Rathnayaka, Uthayasanker Thayasivam,
- Abstract要約: 時間的境界変換器 (TBT-Former) は時間的行動ローカライゼーションのための新しいアーキテクチャである。
GFL(Generalized Focal Loss)の原則にインスパイアされたこの新しいヘッドは、境界回帰の難しいタスクを、より柔軟な確率分布学習問題として再考する。
TBT-Formerは、競争力の高いTHUMOS14とEPIC-Kitchens 100データセットに新たなレベルのパフォーマンスを設定できる。
- 参考スコア(独自算出の注目度): 1.2461503242570642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Action Localization (TAL) remains a fundamental challenge in video understanding, aiming to identify the start time, end time, and category of all action instances within untrimmed videos. While recent single-stage, anchor-free models like ActionFormer have set a high standard by leveraging Transformers for temporal reasoning, they often struggle with two persistent issues: the precise localization of actions with ambiguous or "fuzzy" temporal boundaries and the effective fusion of multi-scale contextual information. In this paper, we introduce the Temporal Boundary Transformer (TBT-Former), a new architecture that directly addresses these limitations. TBT-Former enhances the strong ActionFormer baseline with three core contributions: (1) a higher-capacity scaled Transformer backbone with an increased number of attention heads and an expanded Multi-Layer Perceptron (MLP) dimension for more powerful temporal feature extraction; (2) a cross-scale feature pyramid network (FPN) that integrates a top-down pathway with lateral connections, enabling richer fusion of high-level semantics and low-level temporal details; and (3) a novel boundary distribution regression head. Inspired by the principles of Generalized Focal Loss (GFL), this new head recasts the challenging task of boundary regression as a more flexible probability distribution learning problem, allowing the model to explicitly represent and reason about boundary uncertainty. Within the paradigm of Transformer-based architectures, TBT-Former advances the formidable benchmark set by its predecessors, establishing a new level of performance on the highly competitive THUMOS14 and EPIC-Kitchens 100 datasets, while remaining competitive on the large-scale ActivityNet-1.3. Our code is available at https://github.com/aaivu/In21-S7-CS4681-AML-Research-Projects/tree/main/projects/210536K-Multi-Modal -Learning_Video-Understanding
- Abstract(参考訳): テンポラルアクションローカライゼーション(TAL)はビデオ理解における基本的な課題であり、未トリミングビデオ内のすべてのアクションインスタンスの開始時間、終了時間、カテゴリを特定することを目的としている。
最近のシングルステージのアンカーフリーモデルであるActionFormerは、時間的推論にTransformerを活用することで、高い標準を確立している。
本稿では,これらの制約に対処する新しいアーキテクチャであるTBT-Formerを紹介する。
TBT-Formerは,(1)高容量スケールトランスフォーマーバックボーンと,より強力な時間的特徴抽出のためのマルチ層パーセプトロン(MLP)次元の拡大,(2)高レベルのセマンティクスと低レベルの時間的詳細の融合を可能にするトップダウン経路を統合したクロススケール機能ピラミッドネットワーク(FPN),(3)新しい境界分布回帰ヘッドの3つのコアコントリビューションで,強力なActionFormerベースラインを強化する。
GFL(Generalized Focal Loss)の原則にインスパイアされたこの新しいヘッドは、境界回帰の困難なタスクを、より柔軟な確率分布学習問題として再考し、モデルが境界の不確実性を明確に表現し、推論できるようにする。
Transformerベースのアーキテクチャのパラダイムの中で、TBT-Formerは前任者が設定した厳しいベンチマークを前進させ、競合の激しいTHUMOS14とEPIC-Kitchens 100データセット上で新たなレベルのパフォーマンスを確立し、大規模なActivityNet-1.3では競争力を維持した。
私たちのコードはhttps://github.com/aaivu/In21-S7-CS4681-AML-Research-Projects/tree/main/projects/210536K-Multi-Modal -Learning_Video-Understandingで利用可能です。
関連論文リスト
- Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Efficient U-Transformer with Boundary-Aware Loss for Action Segmentation [34.502472072265164]
U-Netアーキテクチャを組み込むことで、時間的畳み込みのない純粋なトランスフォーマーベースモデルを設計する。
本稿では,アテンションモジュールからのフレーム間の類似度スコアの分布に基づく境界認識損失を提案する。
論文 参考訳(メタデータ) (2022-05-26T15:30:34Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。