論文の概要: What Are We Actually Benchmarking in Robot Manipulation?
- arxiv url: http://arxiv.org/abs/2606.04233v1
- Date: Tue, 02 Jun 2026 21:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.391065
- Title: What Are We Actually Benchmarking in Robot Manipulation?
- Title(参考訳): ロボット操作におけるベンチマークとは何か?
- Authors: Tianchong Jiang, Xiangshan Tan, Samuel Wheeler, Luzhe Sun, Tewodros W. Ayalew, Matthew Walter,
- Abstract要約: ロボティクスのベンチマークスコアは、1つの固定された評価設定の下で成功を測定するが、通常、一般的な操作能力の証拠として扱われる。
4つの障害モードを特定し、それぞれがその機能の有効なプロキシとしてベンチマークの役割を弱めたり無効にした。
これらの診断のもと,LIBERO,CALVIN,SimplerEnv,RoboCasa,RoboTwin 2.0を検査した。
- 参考スコア(独自算出の注目度): 0.6297323339186303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A robotics benchmark score measures success under one fixed evaluation setup, yet is routinely treated as evidence of general manipulation capability. We identify four failure modes, each of which weakens or invalidates a benchmark's role as a valid proxy for that capability: shortcut solvability, lack of statistical significance, creeping overfitting, and data-source dependence. We propose one diagnostic per failure mode. We audit LIBERO, CALVIN, SimplerEnv, RoboCasa, and RoboTwin 2.0 under these diagnostics. LIBERO and CALVIN fail multiple diagnostics. RoboCasa and RoboTwin 2.0 fail fewer, despite appearing far less often in recent progress claims. On LIBERO, a 0.09B probe with no language encoder scores at or near reported SOTA, and most reported gains are not provably statistically significant. On CALVIN, randomizing block poses within the training range drops performance for every tested policy. We release the four diagnostics with reference implementations for authors and reviewers to apply before treating a benchmark score as evidence of progress. Code and artifacts are available at https://ripl.github.io/manipulation_benchmark_audit/.
- Abstract(参考訳): ロボティクスのベンチマークスコアは、1つの固定された評価設定の下で成功を測定するが、通常、一般的な操作能力の証拠として扱われる。
その能力の有効なプロキシとして、ベンチマークの役割を弱めたり無効にした4つの障害モードを特定します。
障害モード毎に1つの診断法を提案する。
これらの診断のもと,LIBERO,CALVIN,SimplerEnv,RoboCasa,RoboTwin 2.0を検査した。
LIBEROとCALVINは複数の診断に失敗する。
RoboCasaとRoboTwin 2.0は、最近の進捗報告ではそれほど多くないように見えるが、失敗は少ない。
LIBEROでは、言語エンコーダのスコアのない0.09Bのプローブが報告されたSOTA付近で行われ、ほとんどの報告された利得は統計的に有意ではない。
CALVINでは、トレーニング範囲内のランダム化ブロックのポーズは、テストされたポリシ毎にパフォーマンスを低下させる。
著者とレビュアーがベンチマークスコアを進歩の証拠として扱う前に適用するためのリファレンス実装を備えた4つの診断版をリリースする。
コードとアーティファクトはhttps://ripl.github.io/manipulation_benchmark_audit/で公開されている。
関連論文リスト
- Gate AI: LLM Security Benchmark Evaluation Methodology and Results [0.0]
本稿では,データセットごとのしきい値調整と未開示動作点に対処する評価ハーネスについて述べる。
評価中の検出器は5倍のクロスバリデーションを用いて16の公開ベンチマークで評価される。
外部比較において、検出器の閾値は、競合が公表した偽陽性率に再調整される。
論文 参考訳(メタデータ) (2026-06-01T23:29:58Z) - Early Diagnosis of Wasted Computation in Multi-Agent LLM Systems via Failure-Aware Observability [8.036549927091286]
本稿では,マルチエージェントLSMトレースにおける無駄な計算を診断するための,故障を考慮した可観測性フレームワークを提案する。
このフレームワークを3エージェントの質問応答システムでインスタンス化し、165のGAIA検証トレース上で同一の実行上限で評価する。
論文 参考訳(メタデータ) (2026-05-31T17:50:11Z) - TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis [23.834704102474927]
コードエージェントはGitHubの問題を解決することができるが、失敗した場合、現在の評価は場所や理由を可視化しない。
本稿では,エージェントトラジェクトリを3つの解釈段階に分解する診断フレームワークTRAJEVALを紹介する。
我々はこれらの診断が予測可能であることを確認し、0.87-2.1% MAEでモデルレベルのPass@1予測を達成する。
論文 参考訳(メタデータ) (2026-03-25T05:27:03Z) - Guardian: Detecting Robotic Planning and Execution Errors with Vision-Language Models [53.20969621498248]
本稿では,多種多様な計画および実行障害を生成するために,軌道を手続き的に乱す自動ロボット故障合成手法を提案する。
RLBench-Fail, BridgeDataV2-Fail, UR5-Failの3つの新しい故障検出ベンチマークを構築した。
次に、詳細な障害推論と検出のためのマルチビューイメージを備えたVLMであるGuardianをトレーニングします。
論文 参考訳(メタデータ) (2025-12-01T17:57:27Z) - Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [67.67725938962798]
大規模なWebスケールコーパスの事前トレーニングは、広く使用されているベンチマークでデータ汚染の影響を受けやすいQwen2.5が残る。
我々はRandomCalculationと呼ばれる任意の長さと難易度を持つ完全クリーンな算術問題を生成するジェネレータを導入する。
精度の高い報酬信号のみがベースモデルの性能境界を超える安定した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-07-14T17:55:15Z) - Eliminating Hallucination-Induced Errors in LLM Code Generation with Functional Clustering [0.0]
機能的クラスタリング(Functional Clustering, ブラックボックスラッパー)は, 覚醒によるほとんどすべてのエラーを排除し, 調整可能な信頼スコアを提供する。
我々の検証は、解決可能なタスクのベースラインパス@1を保存するが、返却された回答のエラー率を65%から2%に下げる。
このメソッドはサンプリングとサンドボックスの実行のみを必要とするため、クローズドソースAPIや将来のモデルには適用されない。
論文 参考訳(メタデータ) (2025-05-16T18:19:38Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Test for non-negligible adverse shifts [0.0]
本稿では,アウトレーラスコアに基づくデータセットシフトテストのための堅牢なフレームワークD-SOSを提案する。
D-SOSは異常なシフトを検出し、良心による誤報を識別する。
これは、新しい(テスト)サンプルが古い(トレーニング)サンプルよりも実質上悪いものではなく、2つのサンプルが等しいことを示唆している。
論文 参考訳(メタデータ) (2021-07-07T03:07:40Z) - DARTS-: Robustly Stepping out of Performance Collapse Without Indicators [74.21019737169675]
異なるアーキテクチャ検索は、長期にわたるパフォーマンスの不安定さに悩まされる。
ヘッセン固有値のような指標は、性能が崩壊する前に探索を止める信号として提案される。
本稿では,崩壊を解決するために,より微妙で直接的なアプローチをとる。
論文 参考訳(メタデータ) (2020-09-02T12:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。