論文の概要: Beyond Binary Success: A Diagnostic Meta-Evaluation Framework for Fine-Grained Manipulation
- arxiv url: http://arxiv.org/abs/2605.19986v1
- Date: Tue, 19 May 2026 15:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.484016
- Title: Beyond Binary Success: A Diagnostic Meta-Evaluation Framework for Fine-Grained Manipulation
- Title(参考訳): バイナリ成功を超えて:細粒度マニピュレーションのための診断メタ評価フレームワーク
- Authors: He-Yang Xu, Pengyuan Zhang, Zongyuan Ge, Xiaoshuai Hao, Serge Belongie, Xin Geng, Yuxin Peng, Xiu-Shen Wei,
- Abstract要約: 診断メタ評価フレームワークであるMetaFineを紹介する。
局所的な空間構造を保存できる視覚エンコーダの能力は,きめ細かな精度の鍵となるボトルネックである。
評価をランキングから診断にシフトすることで、MetaFineは、ベンチマークを実際の物理デキスタリティに基づく階層化された能力の修復のための実行可能なコンパスに変換する。
- 参考スコア(独自算出の注目度): 98.79811866787263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained manipulation marks a regime where global scene context no longer suffices, and success hinges on the tight coupling of local attribute grounding, high-fidelity spatial perception, and constraint-respecting motor execution. However, current embodied AI benchmarks collapse these capacities into binary success rates, systematically inflating reported capabilities by up to 70% and masking the architectural bottlenecks that impede real-world deployment. We introduce MetaFine, a diagnostic meta-evaluation framework that disentangles manipulation competency along three axes: understanding, perception, and controlled behavior. Built on a compositional task graph, MetaFine absorbs heterogeneous external benchmarks and reconstructs them into diagnostic scenarios of varying complexity under a unified protocol. Evaluating state-of-the-art vision-language-action (VLA) models through this lens exposes severe dimension-specific failures invisible to conventional metrics. Through targeted causal intervention, we identify the visual encoder's ability to preserve local spatial structure as a key bottleneck for fine-grained precision: improving it directly unlocks previously inaccessible manipulation capabilities without modifying downstream policies. MetaFine further supports hybrid real-sim validation, using limited paired real-world rollouts to calibrate scalable simulation-based estimates for more stable physical benchmarking. By shifting evaluation from ranking to diagnosis, MetaFine turns benchmarking into an actionable compass for repairing the layered capacities underlying genuine physical dexterity. The MetaFine framework, benchmarks, and supporting resources will be publicly released at our project page: https://metafine.github.io/.
- Abstract(参考訳): 微粒な操作は、グローバルなシーンコンテキストがもはや十分ではなく、成功は、局所的な属性の接地、高忠実な空間知覚、制約を無視するモーター実行の密結合にかかっている状況を示す。
しかし、現在の実施済みAIベンチマークでは、これらの能力がバイナリ成功率に崩壊し、報告された能力を最大70%まで体系的に膨らませ、現実世界のデプロイメントを妨げるアーキテクチャ上のボトルネックを隠蔽している。
メタファイン(MetaFine)は、認知、知覚、制御行動の3つの軸に沿って能力の操作を阻害する診断メタ評価フレームワークである。
構成タスクグラフ上に構築されたMetaFineは、異種外部ベンチマークを吸収し、統一されたプロトコルの下でさまざまな複雑さの診断シナリオに再構成する。
このレンズを通して最先端の視覚言語モデル(VLA)を評価すると、従来のメトリクスには見えない重大な次元固有の障害が明らかになる。
目的とする因果的介入を通じて,局所的な空間構造を保存する視覚的エンコーダの能力が,細粒度精度の鍵となることを確認した。
MetaFineはさらに、より安定した物理ベンチマークのためにスケーラブルなシミュレーションベースの見積もりをキャリブレーションするために、限定的なペアの現実世界のロールアウトを使用して、ハイブリッドなリアルタイムバリデーションをサポートする。
評価をランキングから診断にシフトすることで、MetaFineは、ベンチマークを実際の物理デキスタリティに基づく階層化された能力の修復のための実行可能なコンパスに変換する。
MetaFineフレームワーク、ベンチマーク、サポートリソースは、プロジェクトページで公開されます。
関連論文リスト
- Unmasking the Illusion of Embodied Reasoning in Vision-Language-Action Models [28.981226513192535]
最近のVision-Language-Action(VLA)モデルでは、標準的なロボットベンチマークで顕著な成功率が報告されている。
最近の証拠は、標準ベンチマークの成功と真の具体的推論の体系的な不一致を示唆している。
本稿では,ロボットポリシーにおける真の身体的推論の診断ベンチマークであるBeTTERを紹介する。
論文 参考訳(メタデータ) (2026-04-20T09:25:30Z) - AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models [60.04879435087352]
視覚言語アクション(VLA)ポリシーは、単一の統一空間内でアクションを生成する。
本稿では,VLAの動作モデリングを軌跡アンカーと残留精細化に分解する階層的フレームワークであるAnchorRefineを提案する。
LIBERO、CALVIN、および実ロボットタスクの実験では、AnchorRefineは回帰ベースと拡散ベースの両方のVLAバックボーンを一貫して改善している。
論文 参考訳(メタデータ) (2026-04-20T04:25:24Z) - ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation [66.02142169323521]
Vision-Language-ActionモデルとWorld Modelは最近、汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。
既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズによって引き起こされる現実のギャップを捉えることができない。
シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介する。
論文 参考訳(メタデータ) (2026-03-30T15:06:41Z) - Seeing to Ground: Visual Attention for Hallucination-Resilient MDLLMs [47.94507630961399]
トレーニング不要なデコードフレームワークであるVISAGEを導入し、推論時に目的を校正する。
我々は、VISAGEが推定誤差の下で有界目的損失を維持することを保証する解析的安定性を保証する。
幻覚感受性および汎用ベンチマークによる評価は、フレームワークの堅牢性を示している。
論文 参考訳(メタデータ) (2026-03-26T17:53:49Z) - Trustworthy Evaluation of Robotic Manipulation: A New Benchmark and AutoEval Methods [30.612032540735402]
Eval-ActionsベンチマークとAutoEvalアーキテクチャを組み合わせたソリューションを提案する。
このデータセットは、Expert Grading(EG)、Rang-Guided preferences(RG)、Chain-of-Thought(CoT)の3つのコア監視信号を中心に構成されている。
AutoEval は EG プロトコルと RG プロトコルでそれぞれ 0.81 と 0.84 のSpearman's Rank correlation Coefficients (SRCC) を達成している。
論文 参考訳(メタデータ) (2026-01-26T17:47:42Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Mitigating Distribution Shift in Graph-Based Android Malware Classification via Function Metadata and LLM Embeddings [13.484494807251197]
グラフベースのマルウェア分類器は、標準のAndroidデータセットで94%以上の精度を達成できる。
しかし、これまで見つからなかった同じ家系のマルウェアについて評価すると、正確さは最大45%低下する。
本稿では,コンテキスト特徴を持つ関数呼出グラフを強化する,ロバストなセマンティックエンリッチメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-08T22:16:57Z) - Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images [2.2124795371148616]
マスク付き画像モデリング(MIM)で事前訓練した視覚トラスフォーマーを,OODベンチマークと比較した。
実験では、BEITの既知の堅牢性を実証し、PACSでは94%、Office-Homeでは87%の精度を維持した。
これらの洞察は、実験室で訓練されたモデルと、不確実性の下で確実に一般化するAIシステムを構築するための青写真を提供する現実世界のデプロイメントのギャップを埋めるものだ。
論文 参考訳(メタデータ) (2025-04-05T16:25:34Z) - Learning Meta Face Recognition in Unseen Domains [74.69681594452125]
メタ顔認識(MFR)というメタラーニングを用いた新しい顔認識手法を提案する。
MFRは、メタ最適化目標を用いてソース/ターゲットドメインシフトを合成する。
一般化顔認識評価のためのベンチマークを2つ提案する。
論文 参考訳(メタデータ) (2020-03-17T14:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。