論文の概要: TAG-Head: Time-Aligned Graph Head for Plug-and-Play Fine-grained Action Recognition
- arxiv url: http://arxiv.org/abs/2604.11498v1
- Date: Mon, 13 Apr 2026 14:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.582942
- Title: TAG-Head: Time-Aligned Graph Head for Plug-and-Play Fine-grained Action Recognition
- Title(参考訳): TAG-Head: プラグ・アンド・プレイファインファインな動作認識のためのタイムアラインなグラフヘッド
- Authors: Imtiaz Ul Hassan, Nik Bessis, Ardhendu Behera,
- Abstract要約: RGBのみを使用してFHARの標準3Dバックボーンをアップグレードする軽量なFLOグラフヘッドであるTAG-Headを紹介する。
ヘッドはコンパクト(小さな/Pオーバーヘッド)で、バックボーンをまたいでプラグ&プレイし、バックボーンでエンドツーエンドを訓練する。
我々は、TAG-HeadがRGBのみのモデルに新しい最先端のモデルを設定し、近年のマルチモーダルアプローチを超越していることを示す。
- 参考スコア(独自算出の注目度): 4.18721311473154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained human action recognition (FHAR) is challenging because visually similar actions differ by subtle spatio-temporal cues. Many recent systems enhance discriminability with extra modalities (e.g., pose, text, optical flow), but this increases annotation burden and computational cost. We introduce TAG-Head, a lightweight spatio-temporal graph head that upgrades standard 3D backbones (SlowFast, R(2+1)D-34, I3D, etc.) for FHAR using RGB only. Our pipeline first applies a Transformer encoder with learnable 3D positional encodings to the backbone tokens, capturing long-range dependencies across space and time. The resulting features are then refined by a graph in which (i) fully-connected intra-frame edges to resolve subtle appearance differences within frames, and (ii) time-aligned temporal edges that connect features at the same spatial location across frames to stabilise motion cues without over-smoothing. The head is compact (little parameter/FLOP overhead), plug-and-play across backbones, and trained end-to-end with the backbone. Extensive evaluations on FineGym (Gym99 and Gym288) and HAA500 show that TAG-Head sets a new state-of-the-art among RGB-only models and surpasses many recent multimodal approaches (video + pose + text) that rely on privileged information. Ablations disentangle the contributions of the Transformer and the graph topology, and complexity analyses confirm low latency. TAG-Head advances FHAR by explicitly coupling global context with high-resolution spatial interactions and low-variance temporal continuity inside a slim, composable graph head. The simplicity of the design enables straightforward adoption in practical systems that favour RGB-only sensors, while delivering performance gains typically associated with heavier or multimodal models. Code will be released on GitHub.
- Abstract(参考訳): 微粒な人間の行動認識(FHAR)は、微妙な時空間的手がかりによって視覚的に類似した行動が異なるため困難である。
近年のシステムの多くは、余分なモダリティ(例えば、ポーズ、テキスト、光の流れ)で識別性を高めているが、これはアノテーションの負担と計算コストを増大させる。
本稿では,標準的な3Dバックボーン(SlowFast, R(2+1)D-34, I3Dなど)をアップグレードする軽量な時空間グラフヘッドであるTAG-Headを紹介する。
RGBのみ使用したFHAR用。
私たちのパイプラインはまず、学習可能な3D位置エンコーディングを備えたTransformerエンコーダをバックボーントークンに適用し、空間と時間の長距離依存関係をキャプチャします。
得られた特徴はグラフによって洗練される。
(i)フレーム内の微妙な外観の違いを解決するために、フレーム内エッジを完全接続し、
(II) フレーム間の同じ空間的位置における特徴を接続する時間的時間的エッジは、過度な平滑化を伴わず、動きキューを安定化させる。
ヘッドはコンパクト(小さなパラメータ/FLOPオーバーヘッド)、バックボーン間のプラグアンドプレイ、バックボーンでトレーニングされたエンドツーエンドである。
FineGym (Gym99 と Gym288) と HAA500 の広範な評価は、TAG-Head が RGB のみのモデルの間で新しい最先端の技術を設定し、特権情報に依存する最近のマルチモーダルアプローチ (ビデオ + ポーズ + テキスト) を超越していることを示している。
アブレーションは、Transformerとグラフトポロジのコントリビューションを混乱させ、複雑性解析によってレイテンシーが低いことを確認する。
TAG-Headは、大域的コンテキストと高分解能空間相互作用と、スリムで構成可能なグラフヘッド内の低分散時間連続性とを明示的に結合することでFHARを前進させる。
設計の単純さにより、RGBのみのセンサーが好まれる実用的なシステムにおいて、より重いモデルやマルチモーダルモデルに関連するパフォーマンス向上を実現することができる。
コードはGitHubでリリースされる。
関連論文リスト
- SwiTrack: Tri-State Switch for Cross-Modal Object Tracking [74.15663758681849]
クロスモーダルオブジェクトトラッキング(CMOT)は、ビデオストリームが異なるモード間で切り替える間、ターゲットの一貫性を維持する新しいタスクである。
SwiTrackは3つの特別なストリームを配置することでCMOTを再定義する新しいステートスイッチングフレームワークである。
論文 参考訳(メタデータ) (2025-11-20T10:52:54Z) - Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z) - InstantSplat: Sparse-view Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは,光速でスパークビュー3Dシーンを再現する新しい手法である。
InstantSplatでは,3Dシーン表現とカメラポーズを最適化する,自己管理フレームワークを採用している。
3D-GSの従来のSfMと比較して、30倍以上の再現を達成し、視覚的品質(SSIM)を0.3755から0.7624に改善する。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Leveraging Third-Order Features in Skeleton-Based Action Recognition [26.349722372701482]
スケルトン配列は軽量でコンパクトであり、エッジデバイスでのアクション認識に理想的な候補である。
最近のアクション認識法は、特徴融合のためのグラフニューラルネットワークでこれらの表現を使用して、空間時間的キューとして3D関節座標から特徴を抽出します。
関節と体部の関係を強固に捉えるため、角度の3次的特徴を現代建築に融合させることを提案します。
論文 参考訳(メタデータ) (2021-05-04T15:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。