論文の概要: Trokens: Semantic-Aware Relational Trajectory Tokens for Few-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2508.03695v1
- Date: Tue, 05 Aug 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.120088
- Title: Trokens: Semantic-Aware Relational Trajectory Tokens for Few-Shot Action Recognition
- Title(参考訳): トラブル: 意味的・認識的関係軌跡に基づく行動認識
- Authors: Pulkit Kumar, Shuaiyi Huang, Matthew Walmer, Sai Saketh Rambhatla, Abhinav Shrivastava,
- Abstract要約: Trokensは、トラジェクトリポイントをアクション認識のための意味認識型リレーショナルトークンに変換する新しいアプローチである。
本研究では, 軌跡のヒストグラム(Histogram of Oriented Displacements, HoD)と, 複雑な行動パターンをモデル化するための軌跡間関係(inter-trajectory relationship)により, 軌道内力学を捉える運動モデリングフレームワークを開発した。
提案手法は,これらのトラジェクトリトークンとセマンティックな特徴を効果的に組み合わせて,動作情報による外観特徴の向上と,6つの多種多様なアクション認識ベンチマークにおける最先端性能の実現を実現する。
- 参考スコア(独自算出の注目度): 36.662223760818584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video understanding requires effective modeling of both motion and appearance information, particularly for few-shot action recognition. While recent advances in point tracking have been shown to improve few-shot action recognition, two fundamental challenges persist: selecting informative points to track and effectively modeling their motion patterns. We present Trokens, a novel approach that transforms trajectory points into semantic-aware relational tokens for action recognition. First, we introduce a semantic-aware sampling strategy to adaptively distribute tracking points based on object scale and semantic relevance. Second, we develop a motion modeling framework that captures both intra-trajectory dynamics through the Histogram of Oriented Displacements (HoD) and inter-trajectory relationships to model complex action patterns. Our approach effectively combines these trajectory tokens with semantic features to enhance appearance features with motion information, achieving state-of-the-art performance across six diverse few-shot action recognition benchmarks: Something-Something-V2 (both full and small splits), Kinetics, UCF101, HMDB51, and FineGym. For project page see https://trokens-iccv25.github.io
- Abstract(参考訳): 映像理解には動作情報と外観情報の両方を効果的にモデル化する必要がある。
ポイントトラッキングの最近の進歩は、数発のアクション認識を改善することが示されているが、基本的な2つの課題は、その動きパターンを追跡し、効果的にモデル化するための情報的ポイントを選択することである。
本稿では,トラジェクトリポイントを動作認識のための意味認識型リレーショナルトークンに変換する新しいアプローチであるTrokensを提案する。
まず,オブジェクトのスケールと意味的関連性に基づいて,トラッキングポイントを適応的に分散する意味認識型サンプリング手法を提案する。
第2に,オブジェクト指向変位のヒストグラム(Histogram of Oriented Displacements, HoD)による軌道内ダイナミクスと,複雑な動作パターンをモデル化した軌道間関係を捉える運動モデリングフレームワークを開発する。
提案手法は,これらのトラジェクトリトークンとセマンティックな特徴を効果的に組み合わせて,動作情報による外観特徴の向上を実現し,多種多様なアクション認識ベンチマークであるSomething-V2(フルスプリットとスプリットの両方),Kineetics,UCF101,HMDB51,FinGymの6つにまたがって最先端のパフォーマンスを実現する。
プロジェクトページはhttps://trokens-iccv25.github.ioを参照。
関連論文リスト
- SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - Feature Hallucination for Self-supervised Action Recognition [37.20267786858476]
本稿では,RGBビデオフレームからの動作概念と補助的特徴を共同で予測することにより,認識精度を向上させるディープトランスレーショナルアクション認識フレームワークを提案する。
本研究では,Kineetics-400,Kineetics-600,Something V2など,複数のベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-25T11:50:23Z) - Learning Appearance and Motion Cues for Panoptic Tracking [13.062016289815057]
パノプティカルトラッキングは、パノプティカルセグメンテーションにインスタンストラッキングを統合することで、ビデオのピクセルレベルのシーンを可能にする。
本稿では、情報とインスタンス固有の外観と動作特徴を同時にキャプチャする、パノプティカルトラッキングのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-03-12T09:32:29Z) - Trajectory-aligned Space-time Tokens for Few-shot Action Recognition [34.97285458776108]
動作情報と外観情報をキャプチャするTAT(trajectory-aligned tokens)を構築する。
このアプローチは、本質的な情報を保持しながら、データ要求を大幅に削減します。
複数のデータセットにまたがる数発のアクション認識について、最先端の結果を示す。
論文 参考訳(メタデータ) (2024-07-25T17:59:31Z) - Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Object Discovery from Motion-Guided Tokens [50.988525184497334]
自動エンコーダ表現学習フレームワークを、モーションガイダンスと中間レベルの特徴トークン化により強化する。
我々のアプローチは、解釈可能なオブジェクト固有の中間レベルの特徴の出現を可能にする。
論文 参考訳(メタデータ) (2023-03-27T19:14:00Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。