論文の概要: Beyond Label Semantics: Language-Guided Action Anatomy for Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2507.16287v1
- Date: Tue, 22 Jul 2025 07:16:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.001037
- Title: Beyond Label Semantics: Language-Guided Action Anatomy for Few-shot Action Recognition
- Title(参考訳): ラベル・セマンティクスを超えて: 言語誘導型行動解剖学による一発的行動認識
- Authors: Zefeng Qian, Xincheng Yao, Yifei Huang, Chongyang Zhang, Jiangyong Ying, Hong Sun,
- Abstract要約: Few-shot Action Recognition (FSAR)は、ビデオ内の人間のアクションを分類することを目的としており、カテゴリごとにラベル付けされた少数のサンプルのみである。
ラベルセマンティクスを超えた新しいフレームワークであるLGA(Language-Guided Action Anatomy)を提案する。
テキストでは、既製のLCMにラベルをアトミックな動作記述のシーケンスに解剖するよう促す。
ビデオの場合、Visual Anatomy Moduleはアクションをアトミックビデオフェーズにセグメントし、アクションのシーケンシャルな構造をキャプチャする。
- 参考スコア(独自算出の注目度): 16.07037171149096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot action recognition (FSAR) aims to classify human actions in videos with only a small number of labeled samples per category. The scarcity of training data has driven recent efforts to incorporate additional modalities, particularly text. However, the subtle variations in human posture, motion dynamics, and the object interactions that occur during different phases, are critical inherent knowledge of actions that cannot be fully exploited by action labels alone. In this work, we propose Language-Guided Action Anatomy (LGA), a novel framework that goes beyond label semantics by leveraging Large Language Models (LLMs) to dissect the essential representational characteristics hidden beneath action labels. Guided by the prior knowledge encoded in LLM, LGA effectively captures rich spatiotemporal cues in few-shot scenarios. Specifically, for text, we prompt an off-the-shelf LLM to anatomize labels into sequences of atomic action descriptions, focusing on the three core elements of action (subject, motion, object). For videos, a Visual Anatomy Module segments actions into atomic video phases to capture the sequential structure of actions. A fine-grained fusion strategy then integrates textual and visual features at the atomic level, resulting in more generalizable prototypes. Finally, we introduce a Multimodal Matching mechanism, comprising both video-video and video-text matching, to ensure robust few-shot classification. Experimental results demonstrate that LGA achieves state-of-the-art performance across multipe FSAR benchmarks.
- Abstract(参考訳): Few-shot Action Recognition (FSAR)は、ビデオ内の人間のアクションを分類することを目的としており、カテゴリーごとに少数のラベル付きサンプルしか表示されない。
トレーニングデータの不足により、最近の取り組みは追加のモダリティ、特にテキストを取り入れようとしている。
しかしながら、人間の姿勢の微妙な変化、運動力学、異なるフェーズで発生する物体の相互作用は、アクションラベルだけでは十分に活用できない行動に関する重要な固有の知識である。
本研究では,LGA(Language-Guided Action Anatomy)を提案する。LGA(Language-Guided Action Anatomy)は,Large Language Models(LLMs)を利用して,行動ラベルの下に隠された重要な表現特性を識別する。
LLMで符号化された事前知識によって導かれるLGAは、数ショットのシナリオにおいて、豊富な時空間的手がかりを効果的にキャプチャする。
具体的には、本文では、ラベルをアトミックなアクション記述のシーケンスに解剖し、アクションの3つの中核要素(オブジェクト、モーション、オブジェクト)に焦点を当てるよう、既製のLCMに促す。
ビデオの場合、Visual Anatomy Moduleはアクションをアトミックビデオフェーズにセグメントし、アクションのシーケンシャルな構造をキャプチャする。
微細な融合戦略は、テキストと視覚の機能を原子レベルで統合し、より一般化可能なプロトタイプを生み出す。
最後に,ビデオテキストマッチングとビデオテキストマッチングの両方を含むマルチモーダルマッチング機構を導入し,ロバストな少数ショット分類を実現する。
実験結果から,LGAはマルチペFSARベンチマークにおける最先端性能を実現することが示された。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - TEACH: Temporal Action Composition for 3D Humans [50.97135662063117]
自然言語の一連の記述を前提として,テキストに意味的に対応する3次元の人間の動作を生成する。
特に、我々のゴールは一連のアクションの合成を可能にすることであり、これは時間的アクション合成と呼ばれる。
論文 参考訳(メタデータ) (2022-09-09T00:33:40Z) - Generative Action Description Prompts for Skeleton-based Action
Recognition [15.38417530693649]
本稿では,骨格に基づく行動認識のためのGAP(Generative Action-Description Prompts)アプローチを提案する。
本研究では,行動の身体部分の動きのテキスト記述を自動的に生成する知識エンジンとして,事前学習された大規模言語モデルを用いる。
提案手法は,推定コストを伴わずに,様々なベースラインモデルに対して顕著な改善を実現する。
論文 参考訳(メタデータ) (2022-08-10T12:55:56Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
論文 参考訳(メタデータ) (2022-03-26T15:52:27Z) - Towards Tokenized Human Dynamics Representation [41.75534387530019]
我々は,ビデオの時間的パターンを自己監督的に分割し,クラスタ化する方法について検討した。
我々は、ケンドールのTauによるフレームワイド表現学習ステップと、正規化された相互情報と言語エントロピーによる語彙構築ステップを評価する。
AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2021-11-22T18:59:58Z) - Learning to Recognize Actions on Objects in Egocentric Video with
Attention Dictionaries [51.48859591280838]
ビデオアクション認識のためのディープニューラルアーキテクチャであるEgoACOを紹介する。
フレームレベルの機能からアクションコンテキストオブジェクト記述子をプールする。
Capは学習可能な重みの辞書を使って、最も関連性の高い特徴領域からプールする。
論文 参考訳(メタデータ) (2021-02-16T10:26:04Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。