論文の概要: Gravity-Bench-v1: A Benchmark on Gravitational Physics Discovery for Agents
- arxiv url: http://arxiv.org/abs/2501.18411v1
- Date: Thu, 30 Jan 2025 15:06:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:04.547244
- Title: Gravity-Bench-v1: A Benchmark on Gravitational Physics Discovery for Agents
- Title(参考訳): Gravity-Bench-v1: エージェントの重力物理発見に関するベンチマーク
- Authors: Nolan Koblischke, Hyunseok Jang, Kristen Menou, Mohamad Ali-Dib,
- Abstract要約: Gravity-Bench-v1は環境ベースのベンチマークで、現代の科学と平行するタスクでAIエージェントに挑戦する。
重力ベンチ(Gravity-Bench)とは、現実世界から逸脱する物理現象である。
エージェントは実験的な予算内でデータ収集を計画し、データ分析と推論の動的な形式を実行し、タスクを効率的に解決しなければならない。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Modern science emerged from reasoning over repeatedly-observed planetary motions. We present Gravity-Bench-v1, an environment-based benchmark that challenges AI agents on tasks that parallel this historical development. Gravity-Bench-v1 evaluates agents on the discovery of physics concealed within a dynamic environment, using rigorous gravitational dynamics simulations. Gravity-Bench includes out-of-distribution cases, i.e. with physics that deviates from the real world, to evaluate true scientific generalization capabilities. Agents must plan to collect data within an experimental budget and must perform a dynamic form of data analysis and reasoning to solve tasks efficiently. Our benchmark admits an open-ended space of solutions. PhD-level solutions for each task are provided, to calibrate AI performance against human expertise. Technically at an upper-undergraduate level, our benchmark proves challenging to baseline AI agents. Gravity-Bench-v1 and planned extensions should help map out AI progress towards scientific discovery capabilities.
- Abstract(参考訳): 現代の科学は、繰り返し観測された惑星の動きについての推論から生まれた。
私たちは、環境ベースのベンチマークであるGravity-Bench-v1を紹介します。
Gravity-Bench-v1は、厳密な重力力学シミュレーションを用いて、動的環境に隠された物理学の発見のエージェントを評価する。
重力ベンチ(Gravity-Bench)は、実際の世界から逸脱する物理、すなわち真の科学的一般化能力を評価するための分配外ケースを含む。
エージェントは実験的な予算内でデータ収集を計画し、データ分析と推論の動的な形式を実行し、タスクを効率的に解決しなければならない。
私たちのベンチマークでは、ソリューションのオープンエンドスペースを認めています。
タスクごとにPhDレベルのソリューションが提供され、人間の専門知識に対してAIのパフォーマンスを調整します。
技術的には、上級の学部レベルでは、私たちのベンチマークはAIエージェントをベースラインするのは難しいことを証明しています。
Gravity-Bench-v1と計画されている拡張は、AIの進歩を科学的発見能力にマップするのに役立つだろう。
関連論文リスト
- DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - "Turing Tests" For An AI Scientist [0.0]
本稿では,AIエージェントが独立して科学的研究を行うことができるかどうかを評価するために,AI科学者の研修試験を提案する。
我々は,AIエージェントが様々な科学領域において画期的な発見を行う能力を評価する7つのベンチマークテストを提案する。
論文 参考訳(メタデータ) (2024-05-22T05:14:27Z) - BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with 1,000 Everyday Activities and Realistic Simulation [63.42591251500825]
本稿では,人間中心ロボットの総合シミュレーションベンチマークであるBEHAVIOR-1Kを提案する。
ひとつは、90以上のオブジェクトにリッチな物理的およびセマンティックな特性を付加した50のシーンで、1,000の日常的な活動を定義することである。
第二にOMNIGIBSONは、現実的な物理シミュレーションと剛体、変形可能な体、液体のレンダリングを通じてこれらの活動を支援する新しいシミュレーション環境である。
論文 参考訳(メタデータ) (2024-03-14T09:48:36Z) - Building Flexible Machine Learning Models for Scientific Computing at Scale [35.41293100957156]
OmniArchは,物理アライメントによるマルチスケール・マルチ物理科学計算問題の解決を目的とした,最初のプロトタイプである。
PDEBench上で1D-2D-3Dの統合事前トレーニングを行い、1D, 2D, 3D PDEの新たなパフォーマンスベンチマークを設定するだけでなく、コンテキスト内およびゼロショット学習アプローチによる新しい物理への例外的な適応性を示す。
論文 参考訳(メタデータ) (2024-02-25T07:19:01Z) - Physics-Based Task Generation through Causal Sequence of Physical
Interactions [3.2244944291325996]
物理的な環境でタスクを実行することは、現実世界で動作するAIシステムにとって決定的に難しい問題である。
本稿では,物体間の物理的相互作用の因果シーケンスを用いて物理シナリオを定義するための体系的なアプローチを提案する。
次に,定義したシナリオを入力として,物理シミュレーション環境でタスクを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-08-05T10:15:18Z) - OPEn: An Open-ended Physics Environment for Learning Without a Task [132.6062618135179]
オープンエンドな物理環境で学んだ世界のモデルが、特定のタスクを伴わずに、下流の物理推論タスクに再利用できるかどうかについて検討する。
我々は,OPEn(Open-ended Physics ENvironment)のベンチマークを構築し,この環境における学習表現をテストするためのいくつかのタスクを明示的に設計する。
その結果、教師なしのコントラスト学習を表現学習に用いたエージェントと、探索のためのインパクト駆動学習が最良の結果となった。
論文 参考訳(メタデータ) (2021-10-13T17:48:23Z) - BEHAVIOR: Benchmark for Everyday Household Activities in Virtual,
Interactive, and Ecological Environments [70.18430114842094]
本稿では,シミュレーションにおける100のアクティビティを持つAIのベンチマークであるBEHAVIORを紹介する。
これらの活動は現実的で多様性があり、複雑であるように設計されています。
われわれは、バーチャルリアリティー(VR)における500件の人間デモを含む。
論文 参考訳(メタデータ) (2021-08-06T23:36:23Z) - PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable
Physics [89.81550748680245]
PasticineLabと呼ばれる新しい微分可能な物理ベンチマークを導入する。
各タスクにおいて、エージェントはマニピュレータを使用して、プラスチックを所望の構成に変形させる。
本稿では,既存の強化学習(RL)手法と勾配に基づく手法について評価する。
論文 参考訳(メタデータ) (2021-04-07T17:59:23Z) - The ThreeDWorld Transport Challenge: A Visually Guided Task-and-Motion
Planning Benchmark for Physically Realistic Embodied AI [96.86091264553613]
3Dワールドトランスポートチャレンジと呼ばれる視覚誘導と物理駆動のタスク・アンド・モーション計画ベンチマークを紹介します。
この課題では、シミュレーションされた実家環境において、2つの9-DOF関節アームを備えたエンボディエージェントをランダムに生成する。
エージェントは、家の周りに散在するオブジェクトの小さなセットを見つけ、それらをピックアップし、望ましい最終的な場所に輸送する必要があります。
論文 参考訳(メタデータ) (2021-03-25T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。