論文の概要: Can Vision Language Models Judge Action Quality? An Empirical Evaluation
- arxiv url: http://arxiv.org/abs/2604.08294v1
- Date: Thu, 09 Apr 2026 14:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.96157
- Title: Can Vision Language Models Judge Action Quality? An Empirical Evaluation
- Title(参考訳): 視覚言語は行動品質を判断できるか? : 経験的評価
- Authors: Miguel Monte e Freitas, Rui Henriques, Ricardo Rei, Pedro Henrique Martins,
- Abstract要約: アクション・クオリティ・アセスメント(AQA)は、理学療法、スポーツコーチング、競争力判定に広く応用されている。
Vision Language Models (VLM) は AQA に対してかなりの保証を持っているが、この領域における実際のパフォーマンスは、ほとんど役に立たないままである。
本稿では,活動領域(例えば,フィットネス,フィギュアスケート,ダイビング,タスク,表現,促進戦略)における最先端VLMの総合評価について述べる。
- 参考スコア(独自算出の注目度): 5.688409551177917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action Quality Assessment (AQA) has broad applications in physical therapy, sports coaching, and competitive judging. Although Vision Language Models (VLMs) hold considerable promise for AQA, their actual performance in this domain remains largely uncharacterised. We present a comprehensive evaluation of state-of-the-art VLMs across activity domains (e.g. fitness, figure skating, diving), tasks, representations, and prompting strategies. Baseline results reveal that Gemini 3.1 Pro, Qwen3-VL and InternVL3.5 models perform only marginally above random chance, and although strategies such as incorporation of skeleton information, grounding instructions, reasoning structures and in-context learning lead to isolated gains, none is consistently effective. Analysis of prediction distributions uncovers two systematic biases: a tendency to predict correct execution regardless of visual evidence, and a sensitivity to superficial linguistic framing. Reformulating tasks contrastively to mitigate these biases yields minimal improvement, suggesting that the models' limitations go beyond these biases, pointing to a fundamental difficulty with fine-grained movement quality assessment. Our findings establish a rigorous baseline for future VLM-based AQA research and provide an actionable outline for failure modes requiring mitigation prior to reliable real-world deployment.
- Abstract(参考訳): アクション・クオリティ・アセスメント(AQA)は、理学療法、スポーツ・コーチング、競争力判定に広く応用されている。
Vision Language Models (VLM) は AQA に対してかなりの保証を持っているが、この領域における実際のパフォーマンスは、ほとんど役に立たないままである。
本稿では,活動領域(例えば,フィットネス,フィギュアスケート,ダイビング,タスク,表現,促進戦略)における最先端VLMの総合評価について述べる。
Gemini 3.1 Pro, Qwen3-VL, InternVL3.5 モデルはランダムな確率をわずかに上回り、骨格情報の取り込み、接地命令、推論構造、文脈内学習などの戦略は孤立した利得をもたらすが、必ずしも有効ではない。
予測分布の分析は、視覚的証拠に関係なく正しい実行を予測する傾向と、表面言語フレーミングに対する感受性の2つの体系的バイアスを明らかにする。
対照的に、これらのバイアスを軽減するためにタスクを改革することは、最小限の改善をもたらし、モデルの制限がこれらのバイアスを超えることを示唆し、細かい運動品質評価の根本的な困難を示唆している。
本研究は,今後のVLMベースのAQA研究のための厳格なベースラインを確立し,信頼性の高い実世界の展開に先立って緩和を必要とする障害モードについて,実行可能なアウトラインを提供する。
関連論文リスト
- VAUQ: Vision-Aware Uncertainty Quantification for LVLM Self-Evaluation [22.921677603408188]
LVLM(Large Vision-Language Models)はしばしば幻覚を呈し、現実世界のアプリケーションに安全な配置を制限している。
LVLM自己評価のための視覚対応不確実性定量化フレームワークVAUQを提案する。
VAUQは、モデルの出力が視覚的証拠に依存するかを明確に測定する。
論文 参考訳(メタデータ) (2026-02-24T16:11:14Z) - LIBERO-X: Robustness Litmus for Vision-Language-Action Models [32.29541801424534]
この研究は、評価とデータの観点からVLAベンチマークを体系的に再考する。
LIBERO-Xは階層的評価プロトコルを特徴とするベンチマークで,3つのコア機能を対象とした進行難度レベルを示す。
代表的なVLAモデルを用いた実験では、累積摂動下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-06T09:59:12Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment [10.701522670464463]
MLLM(Multimodal large language model)は、解釈可能な評価によって視覚的品質を評価する。
冷間開始段階と強化学習に基づく微調整段階からなる統合された2段階訓練枠組みを提案する。
これら2つの段階から派生したモデルをQ-Ponder-CIとQ-Ponderと呼ぶ。
論文 参考訳(メタデータ) (2025-06-03T10:11:51Z) - Evaluating and Advancing Multimodal Large Language Models in Perception Ability Lens [30.083110119139793]
textbfAbilityLensはMLLMを6つの重要な知覚能力で評価する統合ベンチマークである。
我々は、現在のメインストリームMLLMの長所と短所を特定し、安定性パターンを強調し、最先端のオープンソースモデルとクローズドソースモデルの顕著なパフォーマンスギャップを明らかにする。
論文 参考訳(メタデータ) (2024-11-22T04:41:20Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。