Fugu-MT 論文翻訳(概要): Introducing Gating and Context into Temporal Action Detection

論文の概要: Introducing Gating and Context into Temporal Action Detection

arxiv url: http://arxiv.org/abs/2409.04205v1
Date: Fri, 6 Sep 2024 11:52:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-09 15:55:18.178542
Title: Introducing Gating and Context into Temporal Action Detection
Title（参考訳）: 時間的行動検出におけるゲーティングとコンテキストの導入
Authors: Aglind Reka, Diana Laura Borza, Dominick Reilly, Michal Balazia, Francois Bremond,
Abstract要約: 時間的行動検出(TAD)は、動作の重なり合いと動作の変動が原因で依然として困難である。最近の知見から,TAD性能は自己保持機構よりもトランスの構造設計に依存することが示唆された。本稿では,軽量かつ効果的な操作による特徴抽出プロセスを提案する。
参考スコア（独自算出の注目度）: 0.8987776881291144
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Temporal Action Detection (TAD), the task of localizing and classifying actions in untrimmed video, remains challenging due to action overlaps and variable action durations. Recent findings suggest that TAD performance is dependent on the structural design of transformers rather than on the self-attention mechanism. Building on this insight, we propose a refined feature extraction process through lightweight, yet effective operations. First, we employ a local branch that employs parallel convolutions with varying window sizes to capture both fine-grained and coarse-grained temporal features. This branch incorporates a gating mechanism to select the most relevant features. Second, we introduce a context branch that uses boundary frames as key-value pairs to analyze their relationship with the central frame through cross-attention. The proposed method captures temporal dependencies and improves contextual understanding. Evaluations of the gating mechanism and context branch on challenging datasets (THUMOS14 and EPIC-KITCHEN 100) show a consistent improvement over the baseline and existing methods.
Abstract（参考訳）: 時間的行動検出(TAD: Temporal Action Detection)は、ビデオ中の動作の局所化と分類を行うタスクであり、アクションの重複やアクションの変動が原因で依然として困難である。最近の知見から,TAD性能は自己保持機構よりもトランスの構造設計に依存することが示唆された。この知見に基づいて,軽量かつ効果的な操作による特徴抽出プロセスを提案する。まず、異なるウィンドウサイズを持つ並列畳み込みを用いた局所分岐を用いて、きめ細かい時間的特徴と粗い時間的特徴の両方をキャプチャする。このブランチには、最も関連性の高い機能を選択するためのゲーティングメカニズムが組み込まれている。第2に,境界フレームをキーと値のペアとして使用するコンテキスト分岐を導入して,クロスアテンションを通じて中心フレームとの関係を解析する。提案手法は時間的依存を捕捉し,文脈的理解を改善する。挑戦的データセット(THUMOS14とEPIC-KITCHEN 100)に対するゲーティング機構とコンテキストブランチの評価は、ベースラインと既存のメソッドよりも一貫した改善を示している。

関連論文リスト

FDDet: Frequency-Decoupling for Boundary Refinement in Temporal Action Detection [4.015022008487465]
大規模な事前訓練されたビデオエンコーダは、背景の乱雑さと無関係なセマンティクスを導入し、コンテキストの混乱と境界に繋がる。本稿では,事前学習したモデルから得られた雑音のセマンティクスをフィルタリングすることで,行動識別性を向上させる周波数対応デカップリングネットワークを提案する。本手法は時間的行動検出ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-01T10:57:37Z)
Learning Sequence Descriptor based on Spatio-Temporal Attention for Visual Place Recognition [16.380948630155476]
ビジュアルプレース認識(VPR)は、クエリフレームと同じ場所に位置するタグ付きデータベースからフレームを取得することを目的としている。ジオリーエイリアスシナリオにおけるVPRのロバスト性を改善するために,シーケンスベースのVPR手法を提案する。我々はスライディングウィンドウを用いて時間的注意範囲を制御し、相対的な位置エンコーディングを用いて異なる特徴間の逐次的関係を構築する。
論文参考訳（メタデータ） (2023-05-19T06:39:10Z)
DIR-AS: Decoupling Individual Identification and Temporal Reasoning for Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。 GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文参考訳（メタデータ） (2023-04-04T20:27:18Z)
Alignment-guided Temporal Attention for Video Action Recognition [18.5171795689609]
フレームごとのアライメントは、フレーム表現間の相互情報を増大させる可能性があることを示す。隣接フレーム間のパラメータフリーパッチレベルのアライメントで1次元の時間的注意を延長するためのアライメント誘導時間注意(ATA)を提案する。
論文参考訳（メタデータ） (2022-09-30T23:10:47Z)
Spatiotemporal Multi-scale Bilateral Motion Network for Gait Recognition [3.1240043488226967]
本稿では,光学的流れに動機づけられた両動方向の特徴について述べる。動作コンテキストを多段階の時間分解能でリッチに記述する多段階の時間表現を開発する。
論文参考訳（メタデータ） (2022-09-26T01:36:22Z)
FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文参考訳（メタデータ） (2022-04-07T17:59:32Z)
Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文参考訳（メタデータ） (2022-03-27T14:08:30Z)
LSTC: Boosting Atomic Action Detection with Long-Short-Term Context [60.60267767456306]
我々は行動認識パイプラインを短期的・長期的依存に分解する。本設計では, 局所集約分枝を用いて, 密集した情報的短期的手がかりを収集する。両方のブランチは、コンテキスト固有のアクションを独立して予測し、結果が最後にマージされる。
論文参考訳（メタデータ） (2021-10-19T10:09:09Z)
Progressively Guide to Attend: An Iterative Alignment Framework for Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文参考訳（メタデータ） (2021-09-14T02:08:23Z)
End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文参考訳（メタデータ） (2021-06-18T17:58:34Z)
Augmented Transformer with Adaptive Graph for Temporal Action Proposal Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文参考訳（メタデータ） (2021-03-30T02:01:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。