論文の概要: SkeletonAgent: An Agentic Interaction Framework for Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2511.22433v2
- Date: Tue, 02 Dec 2025 06:11:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 14:50:32.057086
- Title: SkeletonAgent: An Agentic Interaction Framework for Skeleton-based Action Recognition
- Title(参考訳): SkeletonAgent: 骨格に基づく行動認識のためのエージェントインタラクションフレームワーク
- Authors: Hongda Liu, Yunfan Liu, Changlu Wang, Yunlong Wang, Zhenan Sun,
- Abstract要約: SkeletonAgentは認識モデルとLarge Language Modelをブリッジする。
SkeletonAgentは、最先端のベンチマークメソッドを一貫して上回っている。
- 参考スコア(独自算出の注目度): 29.86723021801198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in skeleton-based action recognition increasingly leverage semantic priors from Large Language Models (LLMs) to enrich skeletal representations. However, the LLM is typically queried in isolation from the recognition model and receives no performance feedback. As a result, it often fails to deliver the targeted discriminative cues critical to distinguish similar actions. To overcome these limitations, we propose SkeletonAgent, a novel framework that bridges the recognition model and the LLM through two cooperative agents, i.e., Questioner and Selector. Specifically, the Questioner identifies the most frequently confused classes and supplies them to the LLM as context for more targeted guidance. Conversely, the Selector parses the LLM's response to extract precise joint-level constraints and feeds them back to the recognizer, enabling finer-grained cross-modal alignment. Comprehensive evaluations on five benchmarks, including NTU RGB+D, NTU RGB+D 120, Kinetics-Skeleton, FineGYM, and UAV-Human, demonstrate that SkeletonAgent consistently outperforms state-of-the-art benchmark methods. The code is available at https://github.com/firework8/SkeletonAgent.
- Abstract(参考訳): 骨格に基づく行動認識の最近の進歩は、Large Language Models (LLMs) のセマンティックプリエンスを活用して骨格表現を充実させている。
しかし、LLMは通常、認識モデルとは独立してクエリされ、パフォーマンスのフィードバックは受けない。
結果として、同じ行動を区別するために重要な差別的手がかりを提供するのに失敗することが多い。
これらの制約を克服するために,認識モデルとLLMを2つの協調エージェント,すなわち質問票とセレクタでブリッジする新しいフレームワークであるSkeletonAgentを提案する。
特に、質問者は最も頻繁に混乱しているクラスを特定し、よりターゲットを絞ったガイダンスのコンテキストとしてLLMに提供します。
逆に、セレクタはLSMの応答を解析して正確な関節レベルの制約を抽出し、それを認識器にフィードバックし、よりきめ細かいクロスモーダルアライメントを可能にする。
NTU RGB+D, NTU RGB+D 120, Kinetics-Skeleton, FineGYM, UAV-Human を含む5つのベンチマークの総合的な評価は、SkeletonAgent が常に最先端のベンチマーク手法より優れていることを示した。
コードはhttps://github.com/firework8/SkeletonAgent.comで公開されている。
関連論文リスト
- A Benchmark for Procedural Memory Retrieval in Language Agents [0.023227405857540805]
現在のAIエージェントは、慣れ親しんだ設定で優れていますが、目に見えないProcで新しいタスクに直面したとき、急激に失敗します。
タスク実行から手続き的メモリ検索を分離する最初のベンチマークを示す。
埋め込み型手法は、慣れ親しんだ文脈で強く機能するが、新規な手法では著しく劣化する。
論文 参考訳(メタデータ) (2025-11-21T08:08:53Z) - SUGAR: Learning Skeleton Representation with Visual-Motion Knowledge for Action Recognition [70.56416162106036]
我々は行動認識のためのvisUal-motion knowledGe(SUGAR)を紹介する。
パイプラインでは、まず、市販の大規模ビデオモデルを知識ベースとして利用し、アクションに関連する視覚的、運動的な情報を生成する。
これらの表現を理解して、所望のアクションターゲットと記述を生成するために、未修正の事前学習重み付きLLMを使用する。
論文 参考訳(メタデータ) (2025-11-13T08:45:24Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Exploring Self-supervised Skeleton-based Action Recognition in Occluded Environments [40.322770236718775]
我々は,オクルージョンを扱うためのシンプルで効果的な自己教師型学習フレームワークであるIosPSTLを提案する。
IosPSTLはクラスタに依存しないKNN命令とOccluded partial Spatio-Temporal Learning (OPSTL)戦略を組み合わせる。
OPSTLモジュールは適応空間マスキング (Adaptive Spatial Masking, ASM) を組み込んで、トレーニング中に無傷で高品質な骨格配列をうまく活用する。
論文 参考訳(メタデータ) (2023-09-21T12:51:11Z) - SkeleTR: Towrads Skeleton-based Action Recognition in the Wild [86.03082891242698]
SkeleTRは骨格に基づく行動認識のための新しいフレームワークである。
まず、グラフ畳み込みによる各骨格配列の人体内骨格力学をモデル化する。
次に、スタック化されたTransformerエンコーダを使用して、一般的なシナリオにおけるアクション認識に重要な人物のインタラクションをキャプチャする。
論文 参考訳(メタデータ) (2023-09-20T16:22:33Z) - Multi-Semantic Fusion Model for Generalized Zero-Shot Skeleton-Based
Action Recognition [32.291333054680855]
一般化ゼロショットスケルトンに基づく行動認識(GZSSAR)は、コンピュータビジョンコミュニティにおいて新たな課題である。
GZSSARの性能向上のためのマルチセマンティック・フュージョン(MSF)モデルを提案する。
論文 参考訳(メタデータ) (2023-09-18T09:00:25Z) - SimMC: Simple Masked Contrastive Learning of Skeleton Representations
for Unsupervised Person Re-Identification [63.903237777588316]
SimMC(Simple Masked Contrastive Learning)フレームワークを提案する。
具体的には、各骨格配列内の骨格の特徴を完全に活用するために、まずマスク付きプロトタイプコントラスト学習(MPC)方式を考案する。
そこで我々は,サブシーケンス間のシーケンス内パターンの整合性を捉えるために,マスク付きシーケンス内コントラスト学習(MIC)を提案する。
論文 参考訳(メタデータ) (2022-04-21T00:19:38Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。