論文の概要: HieroAction: Hierarchically Guided VLM for Fine-Grained Action Analysis
- arxiv url: http://arxiv.org/abs/2508.16942v1
- Date: Sat, 23 Aug 2025 08:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.266621
- Title: HieroAction: Hierarchically Guided VLM for Fine-Grained Action Analysis
- Title(参考訳): HieroAction: ファイングラインドアクション分析のための階層的ガイド付きVLM
- Authors: Junhao Wu, Xiuer Gu, Zhiying Li, Yeying Jin, Yunfeng Diao, Zhiyu Li, Zhenbo Song, Xiaomei Zhang, Zhaoxin Fan,
- Abstract要約: HieroActionは人間の行動の正確で構造化された評価を提供する視覚言語モデルである。
推論経路は評価プロセスを構成し、ポリシー学習は報酬に基づく最適化を通じて各ステージを洗練する。
これらの統合によって、複数のベンチマークデータセットで優れたパフォーマンスが示すように、正確で解釈可能なアセスメントが保証される。
- 参考スコア(独自算出の注目度): 33.807258169748465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating human actions with clear and detailed feedback is important in areas such as sports, healthcare, and robotics, where decisions rely not only on final outcomes but also on interpretable reasoning. However, most existing methods provide only a final score without explanation or detailed analysis, limiting their practical applicability. To address this, we introduce HieroAction, a vision-language model that delivers accurate and structured assessments of human actions. HieroAction builds on two key ideas: (1) Stepwise Action Reasoning, a tailored chain of thought process designed specifically for action assessment, which guides the model to evaluate actions step by step, from overall recognition through sub action analysis to final scoring, thus enhancing interpretability and structured understanding; and (2) Hierarchical Policy Learning, a reinforcement learning strategy that enables the model to learn fine grained sub action dynamics and align them with high level action quality, thereby improving scoring precision. The reasoning pathway structures the evaluation process, while policy learning refines each stage through reward based optimization. Their integration ensures accurate and interpretable assessments, as demonstrated by superior performance across multiple benchmark datasets. Code will be released upon acceptance.
- Abstract(参考訳): スポーツ、医療、ロボットなどの分野において、決定は最終結果だけでなく、解釈可能な推論にも依存する。
しかし、既存のほとんどの手法は、説明や詳細な分析なしに最終的なスコアしか提供せず、実用性は制限されている。
そこで我々は,人間の行動の正確かつ構造化された評価を提供する視覚言語モデルであるHieroActionを紹介する。
HieroAction は,(1) 行動評価に特化して設計された思考プロセスのステップワイド・アクション・推論(Stepwise Action Reasoning),(2) サブアクション分析から最終スコアまで,ステップバイステップで行動を評価するモデル,(2) 解釈可能性と構造的理解の強化,(2) 階層的政策学習(hierarchical Policy Learning), モデルによる詳細なサブアクションのダイナミクスの学習と高レベルの行動品質の整合化を可能にする強化学習戦略(hierarchical Policy Learning)である。
推論経路は評価プロセスを構成し、ポリシー学習は報酬に基づく最適化を通じて各ステージを洗練する。
これらの統合によって、複数のベンチマークデータセットで優れたパフォーマンスが示すように、正確で解釈可能なアセスメントが保証される。
コードは受理時にリリースされる。
関連論文リスト
- Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.531262595858]
分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。
局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。
最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T16:39:41Z) - From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。
プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - PanguIR Technical Report for NTCIR-18 AEOLLM Task [12.061652026366591]
大規模言語モデル(LLM)はますます重要で、評価が難しい。
手作業の評価は包括的ではあるが、コストが高くリソース集約的であることが多い。
自動評価はスケーラビリティを提供するが、評価基準の制限によって制約される。
論文 参考訳(メタデータ) (2025-03-04T07:40:02Z) - Training an LLM-as-a-Judge Model: Pipeline, Insights, and Practical Lessons [9.954960702259918]
本稿では,文脈認識評価を行うLLM(en:en:en:en:en:en:en:en:LLMs)ジャッジであるThemisを紹介する。
Themisの開発パイプラインの概要を概観し、シナリオに依存した評価プロンプトを強調します。
メタ評価のための人間ラベル付きベンチマークを2つ導入し、テミスが人間の嗜好を経済的に高度に調整できることを実証した。
論文 参考訳(メタデータ) (2025-02-05T08:35:55Z) - A Unified Understanding and Evaluation of Steering Methods [17.420727709895736]
ステアリング法は、中間活性化にステアリングベクトルを適用することにより、大きな言語モデルを制御するための実践的なアプローチを提供する。
その重要性は増しているが、この分野には、タスクやデータセット間で統一された理解と一貫した評価が欠けている。
本稿では, ステアリング手法を解析・評価し, 基本原理を定式化し, 有効性に関する理論的知見を提供する統一的枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-04T20:55:24Z) - Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge [78.28188747489769]
そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。
自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。
提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2025-01-30T02:21:59Z) - Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。
実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-18T15:38:03Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。