論文の概要: Stargazer: A Scalable Model-Fitting Benchmark Environment for AI Agents under Astrophysical Constraints
- arxiv url: http://arxiv.org/abs/2604.15664v1
- Date: Fri, 17 Apr 2026 03:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.723243
- Title: Stargazer: A Scalable Model-Fitting Benchmark Environment for AI Agents under Astrophysical Constraints
- Title(参考訳): Stargazer: 天体物理学制約下でのAIエージェントのためのスケーラブルなモデル適合ベンチマーク環境
- Authors: Xinge Liu, Terry Jingchen Zhang, Bernhard Schölkopf, Zhijing Jin, Kristen Menou,
- Abstract要約: 我々は、動的で反復的な物理地上モデル適合タスクに基づいてAIエージェントを評価するスケーラブルな環境であるStargazerを紹介した。
Stargazerは3つの難題にまたがる120のタスクで構成されており、20の実際のアーカイブケースを含んでいる。
8つのフロンティアエージェントを評価した結果,数値最適化と物理的制約への固執のギャップが明らかとなった。
- 参考スコア(独自算出の注目度): 48.80158223838359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of autonomous AI agents suggests that dynamic benchmark environments with built-in feedback on scientifically grounded tasks are needed to evaluate the capabilities of these agents in research work. We introduce Stargazer, a scalable environment for evaluating AI agents on dynamic, iterative physics-grounded model-fitting tasks using inference on radial-velocity (RV) time series data. Stargazer comprises 120 tasks across three difficulty tiers, including 20 real archival cases, covering diverse scenarios ranging from high-SNR single-planet systems to complex multi-planetary configurations requiring involved low-SNR analysis. Our evaluation of eight frontier agents reveals a gap between numerical optimization and adherence to physical constraints: although agents often achieve a good statistical fit, they frequently fail to recover correct physical system parameters, a limitation that persists even when agents are equipped with vanilla skills. Furthermore, increasing test-time compute yields only marginal gains, with excessive token usage often reflecting recursive failure loops rather than meaningful exploration. Stargazer presents an opportunity to train, evaluate, scaffold, and scale strategies on a model-fitting problem of practical research relevance today. Our methodology to design a simulation-driven environment for AI agents presumably generalizes to many other model-fitting problems across scientific domains. Source code and the project website are available at https://github.com/Gudmorning2025/Stargazer and https://gudmorning2025.github.io/Stargazer, respectively.
- Abstract(参考訳): 自律型AIエージェントの台頭は、研究におけるこれらのエージェントの能力を評価するために、科学的に基礎付けられたタスクにフィードバックを組み込んだ動的ベンチマーク環境が必要であることを示唆している。
本稿では,ラジアル速度(RV)時系列データに基づく推論を用いて,動的かつ反復的な物理地上モデル適合タスク上でAIエージェントを評価するスケーラブルな環境であるStargazerを紹介する。
スターゲイザーは、120のタスクを3つの難易度に分けて構成しており、20の実際のアーカイバルケースを含み、高SNR単一惑星系から低SNR分析を必要とする複雑な多惑星構成まで幅広いシナリオをカバーしている。
8つのフロンティアエージェントを評価した結果,数値最適化と物理的制約への固執のギャップが明らかとなった: エージェントはよく, 適切な物理システムパラメータを回復できないことが多いが, エージェントにバニラスキルが備わっている場合でも持続する制限である。
さらに、テストタイムの計算量が増加すると、限界利得しか得られず、過剰なトークンの使用は、意味のある探索よりも再帰的な障害ループを反映することが多い。
Stargazerは、今日の実践的な研究関連性のモデル適合問題に対して、トレーニング、評価、足場、およびスケール戦略を行う機会を提供する。
AIエージェントのためのシミュレーション駆動環境を設計するための我々の手法は、おそらく科学領域全体にわたる他の多くのモデル適合問題に一般化する。
ソースコードはhttps://github.com/Gudmorning2025/Stargazerとhttps://gudmorning2025.github.io/Stargazerで公開されている。
関連論文リスト
- Exploration and Exploitation Errors Are Measurable for Language Model Agents [52.95061000593404]
言語モデル(LM)エージェントは、複雑なオープン化された決定タスクにますます使われています。
コア要件は、問題空間を探索し、獲得した知識を効果的に活用する能力である。
実践的なAIシナリオにインスパイアされた制御可能な環境を設計する。
論文 参考訳(メタデータ) (2026-04-14T17:59:57Z) - Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning [62.499592503950026]
大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。
完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。
私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
論文 参考訳(メタデータ) (2026-02-10T18:55:41Z) - Agentic AI in Remote Sensing: Foundations, Taxonomy, and Emerging Systems [9.388162021920206]
この調査は、リモートセンシングにおけるエージェントAIの総合的なレビューである。
単一エージェントのコピロとマルチエージェントのシステムを区別した統合分類を導入する。
評価を画素レベルの精度から軌跡認識推論の正確性に移行する新しいベンチマークをレビューする。
論文 参考訳(メタデータ) (2026-01-05T08:34:17Z) - SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning [29.605396813225386]
マルチターン対話型タスクにおけるエージェントの訓練に強化学習をどのように利用できるかを示す。
本手法は,オープンウェイトモデルを用いた多ターン対話タスクのための有能エージェントの訓練のための実践的アプローチを提供する。
論文 参考訳(メタデータ) (2025-08-05T14:30:47Z) - Evaluating Temporal Observation-Based Causal Discovery Techniques
Applied to Road Driver Behaviour [6.980076213134384]
自律運転領域における観察的時間的因果発見手法を10種類評価した。
これらの手法を実世界のデータセットから抽出した因果的シーンに基づいて評価することにより、生成したデータに加えて、どの点を改善する必要があるかを強調する。
我々は,現在最先端の技術が抱えている課題に対処するための今後の取り組みの方向性について論じる。
論文 参考訳(メタデータ) (2023-01-31T19:55:24Z) - Low-Thrust Orbital Transfer using Dynamics-Agnostic Reinforcement
Learning [0.0]
本研究では,低推力中軌道衛星を対象としたモデルフリー強化学習を用いてエージェントを訓練する。
訓練されたエージェントは、軌道を設計し、巡航中に衛星を自律的に制御するために使用される。
論文 参考訳(メタデータ) (2022-10-06T08:36:35Z) - Exploring Dynamic Context for Multi-path Trajectory Prediction [33.66335553588001]
動的コンテキストネットワーク(DCENet)という新しいフレームワークを提案する。
本フレームワークでは,エージェント間の空間的コンテキストを自己注意型アーキテクチャを用いて探索する。
学習した空間的時間的文脈に基づいて、各エージェントに対する将来の軌跡のセットを条件付きで予測する。
論文 参考訳(メタデータ) (2020-10-30T13:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。