論文の概要: Benchmarking Autonomy in Scientific Experiments: A Hierarchical Taxonomy for Autonomous Large-Scale Facilities
- arxiv url: http://arxiv.org/abs/2601.06978v1
- Date: Sun, 11 Jan 2026 16:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.098012
- Title: Benchmarking Autonomy in Scientific Experiments: A Hierarchical Taxonomy for Autonomous Large-Scale Facilities
- Title(参考訳): 科学実験におけるオートノミーのベンチマーク:大規模自律型施設における階層型分類
- Authors: James Le Houx,
- Abstract要約: 学術実験におけるベンチマークオートノミー(BASE)尺度(レベル0-5)を提案する。
オーナー-オペレーターモデルとは異なり、ユーザー施設にはゼロショットの配置が必要で、エージェントは広範囲のトレーニング期間なしで即座に操作する必要がある。
これらの運用定義を確立することで、BASEスケールは、リスクを評価し、責任を定義し、実験実験のインテリジェンスを定量化するための標準化された指標を、施設監督、資金提供機関、ビームライン科学者に提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transition from automated data collection to fully autonomous discovery requires a shared vocabulary to benchmark progress. While the automotive industry relies on the SAE J3016 standard, current taxonomies for autonomous science presuppose an owner-operator model that is incompatible with the operational rigidities of Large-Scale User Facilities. Here, we propose the Benchmarking Autonomy in Scientific Experiments (BASE) Scale, a 6-level taxonomy (Levels 0-5) specifically adapted for these unique constraints. Unlike owner-operator models, User Facilities require zero-shot deployment where agents must operate immediately without extensive training periods. We define the specific technical requirements for each tier, identifying the Inference Barrier (Level 3) as the critical latency threshold where decisions shift from scalar feedback to semantic digital twins. Fundamentally, this level extends the decision manifold from spatial exploration to temporal gating, enabling the agent to synchronise acquisition with the onset of transient physical events. By establishing these operational definitions, the BASE Scale provides facility directors, funding bodies, and beamline scientists with a standardised metric to assess risk, define liability, and quantify the intelligence of experimental workflows.
- Abstract(参考訳): 自動データ収集から完全に自律的な発見への移行は、進捗をベンチマークするために共有語彙を必要とする。
自動車産業はSAE J3016規格に依存しているが、現在の自律科学の分類体系では、大規模ユーザー施設の運用上の厳密性に相容れないオーナー・オペレーター・モデルを前提としている。
本稿では,これらの制約に特化して適応した6段階の分類(レベル0-5)であるベンチマーク・オートノミー・イン・サイエンス・エクスペリメント(BASE)尺度を提案する。
オーナー-オペレーターモデルとは異なり、ユーザー施設にはゼロショットの配置が必要で、エージェントは広範囲のトレーニング期間なしで即座に操作する必要がある。
我々は、各階層の特定の技術的要件を定義し、推論バリア(レベル3)を、決定がスカラーフィードバックからセマンティックデジタルツインへ移行する重要なレイテンシしきい値として特定する。
基本的に、このレベルは決定多様体を空間探索から時間ゲーティングに拡張し、エージェントは取得と過渡的な物理事象の開始を同期させることができる。
これらの運用定義を確立することで、BASEスケールは、リスクを評価し、責任を定義し、実験ワークフローのインテリジェンスを定量化するための標準化された指標を、施設のディレクター、資金提供機関、ビームライン科学者に提供する。
関連論文リスト
- The Geometry of Benchmarks: A New Path Toward AGI [0.0]
本稿では,AIエージェントのすべての心理測定バッテリーを,構造化されたモジュライ空間の点として扱う幾何学的枠組みを提案する。
まず、測定可能なパフォーマンスに基づいて、Kardashevスタイルの自律性階層であるAutonomous AI(AAI)スケールを定義します。
第二に、バッテリーのモジュライ空間を構築し、エージェントの順序や能力推定のレベルで区別できないベンチマークの等価クラスを特定する。
第3に、強化学習、自己再生、討論、検証に基づく微調整を前提としたジェネラルジェネレータ-検証更新演算子(GVU)を導入する。
論文 参考訳(メタデータ) (2025-12-03T21:34:09Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - UAVBench: An Open Benchmark Dataset for Autonomous and Agentic AI UAV Systems via LLM-Generated Flight Scenarios [3.099103925863002]
UAVBenchは、大規模言語モデル(LLM)によって生成されたUAV飛行シナリオのオープンベンチマークベンチマークである。
UAVBench_MCQは,10の認知的・倫理的推論スタイルにまたがる5万の多重選択質問を含む推論指向の拡張である。
GPT-5, ChatGPT-4o, Gemini 2.5 Flash, DeepSeek V3, Q3wenwenB, ERNIE 4.5 300B を含む32 の最先端 LLM を評価し, 認識・政策推論において高い性能を示した。
論文 参考訳(メタデータ) (2025-11-14T12:51:48Z) - A Survey of Data Agents: Emerging Paradigm or Overstated Hype? [66.1526688475023]
現在「データエージェント」は用語的曖昧さと不整合性に悩まされている。
この調査では、データエージェントのための最初の体系的な階層型分類を紹介した。
プロアクティブな生成データエージェントの出現を想定する、先見的なロードマップで締めくくります。
論文 参考訳(メタデータ) (2025-10-27T17:54:07Z) - Agentic Services Computing [51.50424046053763]
本稿では,自律的,適応的,協調的なエージェントとしてサービスを再定義するパラダイムであるエージェントサービスコンピューティングを提案する。
ASCは、設計、デプロイ、運用、進化という4段階のライフサイクルを包含しています。
論文 参考訳(メタデータ) (2025-09-29T07:29:18Z) - PhysGym: Benchmarking LLMs in Interactive Physics Discovery with Controlled Priors [29.988641224102164]
textscPhysGymは、LSMベースの科学的推論を厳格に評価するための、新しいベンチマークスイートとシミュレーションプラットフォームである。
textscPhysGymの主な貢献は、エージェントに提供された事前知識のレベルを高度に制御することにある。
論文 参考訳(メタデータ) (2025-07-21T12:28:10Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Integrated Benchmarking and Design for Reproducible and Accessible
Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。
このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。
本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文 参考訳(メタデータ) (2020-09-09T15:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。