論文の概要: Trustworthy Evaluation of Robotic Manipulation: A New Benchmark and AutoEval Methods
- arxiv url: http://arxiv.org/abs/2601.18723v1
- Date: Mon, 26 Jan 2026 17:47:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.955228
- Title: Trustworthy Evaluation of Robotic Manipulation: A New Benchmark and AutoEval Methods
- Title(参考訳): ロボットマニピュレーションの信頼性評価:新しいベンチマークとオートエバル手法
- Authors: Mengyuan Liu, Juyi Sheng, Peiming Li, Ziyi Wang, Tianming Xu, Tiantian Xu, Hong Liu,
- Abstract要約: Eval-ActionsベンチマークとAutoEvalアーキテクチャを組み合わせたソリューションを提案する。
このデータセットは、Expert Grading(EG)、Rang-Guided preferences(RG)、Chain-of-Thought(CoT)の3つのコア監視信号を中心に構成されている。
AutoEval は EG プロトコルと RG プロトコルでそれぞれ 0.81 と 0.84 のSpearman's Rank correlation Coefficients (SRCC) を達成している。
- 参考スコア(独自算出の注目度): 30.612032540735402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driven by the rapid evolution of Vision-Action and Vision-Language-Action models, imitation learning has significantly advanced robotic manipulation capabilities. However, evaluation methodologies have lagged behind, hindering the establishment of Trustworthy Evaluation for these behaviors. Current paradigms rely on binary success rates, failing to address the critical dimensions of trust: Source Authenticity (i.e., distinguishing genuine policy behaviors from human teleoperation) and Execution Quality (e.g., smoothness and safety). To bridge these gaps, we propose a solution that combines the Eval-Actions benchmark and the AutoEval architecture. First, we construct the Eval-Actions benchmark to support trustworthiness analysis. Distinct from existing datasets restricted to successful human demonstrations, Eval-Actions integrates VA and VLA policy execution trajectories alongside human teleoperation data, explicitly including failure scenarios. This dataset is structured around three core supervision signals: Expert Grading (EG), Rank-Guided preferences (RG), and Chain-of-Thought (CoT). Building on this, we propose the AutoEval architecture: AutoEval leverages Spatio-Temporal Aggregation for semantic assessment, augmented by an auxiliary Kinematic Calibration Signal to refine motion smoothness; AutoEval Plus (AutoEval-P) incorporates the Group Relative Policy Optimization (GRPO) paradigm to enhance logical reasoning capabilities. Experiments show AutoEval achieves Spearman's Rank Correlation Coefficients (SRCC) of 0.81 and 0.84 under the EG and RG protocols, respectively. Crucially, the framework possesses robust source discrimination capabilities, distinguishing between policy-generated and teleoperated videos with 99.6% accuracy, thereby establishing a rigorous standard for trustworthy robotic evaluation. Our project and code are available at https://term-bench.github.io/.
- Abstract(参考訳): Vision-ActionとVision-Language-Actionモデルの急速な進化により、模倣学習はロボット操作能力を大幅に進歩させた。
しかし、評価手法が遅れており、これらの行動に対する信頼に値する評価の確立を妨げている。
現在のパラダイムは二進的成功率に依存しており、信頼の臨界次元に対処できない: 情報源の正当性(すなわち、真の政策行動と人間の遠隔操作を区別する)と実行品質(例えば、滑らかさと安全性)。
これらのギャップを埋めるために、Eval-ActionsベンチマークとAutoEvalアーキテクチャを組み合わせたソリューションを提案する。
まず,信頼度分析を支援するためにEval-Actionsベンチマークを構築した。
既存のデータセットとは違い、Eval-ActionsはVAとVLAポリシー実行トラジェクトリを人間の遠隔操作データと統合し、障害シナリオを明示的に含んでいる。
このデータセットは、Expert Grading(EG)、Rang-Guided preferences(RG)、Chain-of-Thought(CoT)の3つのコア監視信号を中心に構成されている。
これに基づいてAutoEvalアーキテクチャを提案する: AutoEvalは、セマンティックアセスメントに時空間アグリゲーションを活用し、運動のスムーズさを向上するために補助的なKinematic Calibration Signalによって強化され、AutoEval Plus(AutoEval-P)は、論理的推論能力を高めるためにグループ相対ポリシー最適化(GRPO)パラダイムを取り入れている。
AutoEval は EG プロトコルと RG プロトコルでそれぞれ 0.81 と 0.84 のSpearman's Rank correlation Coefficients (SRCC) を達成している。
重要なことに、このフレームワークは堅牢なソース識別能力を持ち、ポリシー生成ビデオと遠隔操作ビデオとを99.6%の精度で区別し、信頼性の高いロボット評価のための厳格な基準を確立している。
私たちのプロジェクトとコードはhttps://term-bench.github.io/.com/で公開されています。
関連論文リスト
- Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization [65.37179698521766]
VLA(Vision-Language-Action)モデルは、ジェネラリストロボットの制御を強く約束する。
標準的な「スケールデータ」レシピがロボット工学に翻訳されるかどうかはまだ不明だ。
本稿では,多様なロボットを対象とした事前学習のためのコアトレーニング選択を再考する,VLAスケーリングの体系的かつ制御された研究を提案する。
論文 参考訳(メタデータ) (2026-02-10T12:25:43Z) - SAGE: Scalable AI Governance & Evaluation [10.238041570564395]
textbfSAGEは、スケーラブルな評価信号として高品質な製品判断を運用するフレームワークである。
SAGEはLinkedIn Searchエコシステム内にデプロイされ、モデルバリエーションの増大を計測し、エンゲージメントメトリクスに見えない回帰を検出する、ポリシの監視に使用された。
論文 参考訳(メタデータ) (2026-02-08T06:42:50Z) - DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models [51.76664843721462]
DeepThinkVLAはVision-Language-Actionモデルのための新しいアーキテクチャである。
因果的注意を伴うシーケンシャルCoTを生成し、双方向の注意に切り替え、アクションベクトルを高速に復号する。
LIBEROベンチマークで97.0%の成功率を達成した。
論文 参考訳(メタデータ) (2025-10-31T05:26:16Z) - Beyond Easy Wins: A Text Hardness-Aware Benchmark for LLM-generated Text Detection [0.38233569758620056]
本稿では,現実的かつ公平な評価を優先する,AIテキスト検出のための新しい評価パラダイムを提案する。
我々のベンチマークであるShielDは、信頼性と安定性の両要素を統一評価基準に統合することにより、これらの制限に対処する。
制御可能な硬度パラメータを組み込んだモデル非依存型ヒューマニフィケーションフレームワークを開発した。
論文 参考訳(メタデータ) (2025-07-21T06:37:27Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Centralizing State-Values in Dueling Networks for Multi-Robot
Reinforcement Learning Mapless Navigation [87.85646257351212]
本稿では,CTDE(Training and Decentralized Execution)パラダイムにおけるマルチロボットマップレスナビゲーションの問題点について考察する。
この問題は、各ロボットが観察を他のロボットと明示的に共有することなく、その経路を考えると困難である。
我々は,集中型状態値ネットワークを用いて共同状態値を計算するCTDEの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-16T16:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。