論文の概要: Beyond Motion Pattern: An Empirical Study of Physical Forces for Human Motion Understanding
- arxiv url: http://arxiv.org/abs/2512.20451v1
- Date: Tue, 23 Dec 2025 15:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.926697
- Title: Beyond Motion Pattern: An Empirical Study of Physical Forces for Human Motion Understanding
- Title(参考訳): 運動パターンを超えて:人間の動作理解のための物理力の実証的研究
- Authors: Anh Dao, Manh Tran, Yufei Zhang, Xiaoming Liu, Zijun Cui,
- Abstract要約: 既存のほとんどの手法は、生体力学の基本となる関節作動力のような物理的な手がかりを見落としている。
確立された動作理解パイプラインに力を加えることで、歩行認識、行動認識、きめ細かいビデオキャプションの3つの主要なタスクへの影響を評価する。
- 参考スコア(独自算出の注目度): 14.61306970304895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human motion understanding has advanced rapidly through vision-based progress in recognition, tracking, and captioning. However, most existing methods overlook physical cues such as joint actuation forces that are fundamental in biomechanics. This gap motivates our study: if and when do physically inferred forces enhance motion understanding? By incorporating forces into established motion understanding pipelines, we systematically evaluate their impact across baseline models on 3 major tasks: gait recognition, action recognition, and fine-grained video captioning. Across 8 benchmarks, incorporating forces yields consistent performance gains; for example, on CASIA-B, Rank-1 gait recognition accuracy improved from 89.52% to 90.39% (+0.87), with larger gain observed under challenging conditions: +2.7% when wearing a coat and +3.0% at the side view. On Gait3D, performance also increases from 46.0% to 47.3% (+1.3). In action recognition, CTR-GCN achieved +2.00% on Penn Action, while high-exertion classes like punching/slapping improved by +6.96%. Even in video captioning, Qwen2.5-VL's ROUGE-L score rose from 0.310 to 0.339 (+0.029), indicating that physics-inferred forces enhance temporal grounding and semantic richness. These results demonstrate that force cues can substantially complement visual and kinematic features under dynamic, occluded, or appearance-varying conditions.
- Abstract(参考訳): 人間の動作理解は視覚に基づく認識、追跡、キャプションの進歩を通じて急速に進歩した。
しかし、既存のほとんどの方法は、生体力学の基本となる関節作動力のような物理的な手がかりを見落としている。
このギャップは我々の研究を動機付けている: 物理的に推論された力が運動の理解を促進するか?
確立された動作理解パイプラインに力を加えることで、歩行認識、行動認識、きめ細かいビデオキャプションの3つの主要なタスクにおいて、ベースラインモデルにまたがる影響を体系的に評価する。
例えば、CASIA-Bでは89.52%から90.39%(+0.87)に改善され、困難条件下では+2.7%、サイドビューでは+3.0%という大きなゲインが観測された。
Gait3Dでは、パフォーマンスも46.0%から47.3%(+1.3)に向上した。
アクション認識では、CTR-GCNはペンアクションで+2.00%、パンチやスラッピングなどの高出力クラスは+6.96%向上した。
ビデオキャプションにおいても、Qwen2.5-VLのROUGE-Lスコアは0.310から0.339(+0.029)まで上昇し、物理学的推論力によって時間的接地と意味的富が促進された。
これらの結果から, 動的, 閉塞的, 外観変化条件下では, 力キューが視覚的, 運動学的特徴を実質的に補うことが示唆された。
関連論文リスト
- Robotic VLA Benefits from Joint Learning with Motion Image Diffusion [114.60268819583017]
VLA(Vision-Language-Action)モデルは、マルチモーダルな観察と指示を直接行動にマッピングすることで、ロボット操作において顕著な進歩を遂げた。
動き推論機能を備えたVLAモデルを強化する新しい戦略である動き画像拡散を用いた共同学習を提案する。
シミュレーションと実世界の両方の環境での実験により、モーション画像拡散による共同学習がpiシリーズVLAの成功率を97.5%に向上させることが示された。
論文 参考訳(メタデータ) (2025-12-19T19:07:53Z) - CoT4Det: A Chain-of-Thought Framework for Perception-Oriented Vision-Language Tasks [53.88194225946438]
Chain-of-Thought for Detection (CoT4Det)は、知覚タスクを3つの解釈可能なステップに再構成するシンプルだが効率的な戦略である。
一般的な視覚言語能力を損なうことなく,CoT4Detは認識性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-12-07T05:26:30Z) - Generating Natural-Language Surgical Feedback: From Structured Representation to Domain-Grounded Evaluation [66.7752700084159]
外科的トレーナーからの高品質なフィードバックは,訓練者のパフォーマンス向上と長期的スキル獲得に不可欠である。
本稿では,実際の訓練者-訓練者間の文書から外科的行動オントロジーを学習する構造対応パイプラインを提案する。
論文 参考訳(メタデータ) (2025-11-19T06:19:34Z) - Rewiring Human Brain Networks via Lightweight Dynamic Connectivity Framework: An EEG-Based Stress Validation [13.302044617776263]
本研究では,時間変化指向伝達関数に基づく軽量な動的脳結合フレームワークを提案する。
TV DTFは、異なる周波数帯域にわたる脳領域間の方向情報の流れを推定する。
テレビDTFの特徴はMLに基づくストレス分類によって検証された。
論文 参考訳(メタデータ) (2025-10-17T13:21:48Z) - Physics-Guided Motion Loss for Video Generation Model [8.083315267770255]
現在のビデオ拡散モデルは視覚的に魅力的なコンテンツを生成するが、物理の基本法則に反することが多い。
モデルアーキテクチャを変更することなく、動きの可視性を向上する周波数領域物理を導入する。
論文 参考訳(メタデータ) (2025-06-02T20:42:54Z) - Dance of Fireworks: An Interactive Broadcast Gymnastics Training System Based on Pose Estimation [6.852618575514742]
ダンス・オブ・ファイアワークス(Dance of Fireworks)は、放射性カリセニクスにおけるエンゲージメントを高めることで、鎮静的健康リスクに対処するために設計されたインタラクティブなシステムである。
このシステムは、ボディキーポイントを抽出し、関節角を計算し、それらを標準化されたモーションと比較し、リアルタイムな修正フィードバックを提供する。
論文 参考訳(メタデータ) (2025-05-05T14:41:06Z) - Integrating Features for Recognizing Human Activities through Optimized Parameters in Graph Convolutional Networks and Transformer Architectures [0.6157382820537721]
本研究は,特徴融合が行動認識の精度に与える影響を強調した。
2つのディープラーニングモデル、特にTransformerモデルとGraph Convolutional Network(PO-GCN)の精度とF1スコアを評価した。
PO-GCNは活動認識において標準モデルより優れている。
論文 参考訳(メタデータ) (2024-08-29T11:07:48Z) - GAIA: Rethinking Action Quality Assessment for AI-Generated Videos [56.047773400426486]
アクション品質アセスメント(AQA)アルゴリズムは、主に実際の特定のシナリオからのアクションに焦点を当て、規範的なアクション機能で事前訓練されている。
我々は,新たな因果推論の観点から大規模主観評価を行うことにより,GAIAを構築した。
その結果、従来のAQA手法、最近のT2Vベンチマークにおけるアクション関連指標、メインストリームビデオ品質手法は、それぞれ0.454、0.191、0.519のSRCCで性能が良くないことがわかった。
論文 参考訳(メタデータ) (2024-06-10T08:18:07Z) - DyGait: Exploiting Dynamic Representations for High-performance Gait
Recognition [35.642868929840034]
歩行認識は、歩行パターンを通して人間の身元を認識する生体計測技術である。
我々は動的特徴の抽出に焦点をあて,DyGaitという新しい高性能なフレームワークを提案する。
我々のネットワークは、GREWデータセットで71.4%、Gait3Dデータセットで66.3%、CAIA-Bデータセットで98.4%、OU-Mデータセットで98.3%の平均ランク1の精度を達成した。
論文 参考訳(メタデータ) (2023-03-27T07:36:47Z) - Tactile Grasp Refinement using Deep Reinforcement Learning and Analytic
Grasp Stability Metrics [70.65363356763598]
解析的把握安定性指標が強化学習アルゴリズムの強力な最適化目標であることを示す。
幾何的および力量に依存しないグリップ安定性の指標を組み合わせることで、カブイドの平均成功率は95.4%となることを示す。
第2の実験では,触覚情報を持たないベースラインよりも,接触フィードバックで訓練したグリップリファインメントアルゴリズムが最大6.6%向上することを示した。
論文 参考訳(メタデータ) (2021-09-23T09:20:19Z) - Use the Force, Luke! Learning to Predict Physical Forces by Simulating
Effects [79.351446087227]
物体と相互作用する人間の映像から接触点と物理的力の推測の問題に対処する。
具体的には、シミュレーションを用いて効果を予測し、推定された力がビデオに描かれたものと同じ効果をもたらすことを強制する。
論文 参考訳(メタデータ) (2020-03-26T17:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。