論文の概要: Can LLMs Do Rocket Science? Exploring the Limits of Complex Reasoning with GTOC 12
- arxiv url: http://arxiv.org/abs/2602.03630v1
- Date: Tue, 03 Feb 2026 15:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.535054
- Title: Can LLMs Do Rocket Science? Exploring the Limits of Complex Reasoning with GTOC 12
- Title(参考訳): LLMはロケット科学ができるか? GTOC 12で複雑な推論の限界を探る
- Authors: Iñaki del Campo, Pablo Cuervo, Victor Rodriguez-Fernandez, Roberto Armellin, Jack Yarndley,
- Abstract要約: LLM(Large Language Models)は、コード生成と一般的な推論において顕著な習熟性を示している。
本研究は、第12回グローバル軌道最適化コンペティション(GTOC 12)に対するAIエージェントの評価により、現在のAIエージェントの限界について検討する。
我々は、MLE-Benchフレームワークを軌道力学の領域に適応させ、AIDEベースのエージェントアーキテクチャをデプロイし、ミッションソリューションを自律的に生成し、洗練する。
- 参考スコア(独自算出の注目度): 0.1710384116816033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable proficiency in code generation and general reasoning, yet their capacity for autonomous multi-stage planning in high-dimensional, physically constrained environments remains an open research question. This study investigates the limits of current AI agents by evaluating them against the 12th Global Trajectory Optimization Competition (GTOC 12), a complex astrodynamics challenge requiring the design of a large-scale asteroid mining campaign. We adapt the MLE-Bench framework to the domain of orbital mechanics and deploy an AIDE-based agent architecture to autonomously generate and refine mission solutions. To assess performance beyond binary validity, we employ an "LLM-as-a-Judge" methodology, utilizing a rubric developed by domain experts to evaluate strategic viability across five structural categories. A comparative analysis of models, ranging from GPT-4-Turbo to reasoning-enhanced architectures like Gemini 2.5 Pro, and o3, reveals a significant trend: the average strategic viability score has nearly doubled in the last two years (rising from 9.3 to 17.2 out of 26). However, we identify a critical capability gap between strategy and execution. While advanced models demonstrate sophisticated conceptual understanding, correctly framing objective functions and mission architectures, they consistently fail at implementation due to physical unit inconsistencies, boundary condition errors, and inefficient debugging loops. We conclude that, while current LLMs often demonstrate sufficient knowledge and intelligence to tackle space science tasks, they remain limited by an implementation barrier, functioning as powerful domain facilitators rather than fully autonomous engineers.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成と一般的な推論において顕著な習熟性を示しているが、高次元、物理的に制約された環境での自律的な多段階計画の能力は、まだオープンな研究課題である。
本研究は、大規模小惑星採掘キャンペーンの設計を必要とする複雑な天体力学の課題である第12回地球軌道最適化コンペティション(GTOC 12)に対して、現在のAIエージェントの限界について検討する。
我々は、MLE-Benchフレームワークを軌道力学の領域に適応させ、AIDEベースのエージェントアーキテクチャをデプロイし、ミッションソリューションを自律的に生成し、洗練する。
両立妥当性を超える性能を評価するため,我々は,ドメインエキスパートが開発し,5つの構造カテゴリにわたる戦略的生存性の評価に活用する「LLM-as-a-Judge」手法を採用した。
GPT-4-Turbo から Gemini 2.5 Pro や o3 のような推論強化アーキテクチャまで、モデルの比較分析では、重要な傾向が示されている。
しかし、戦略と実行の間には重要な能力ギャップがある。
高度なモデルは高度な概念的理解を示し、客観的関数とミッションアーキテクチャを正しくフレーミングするが、物理単位の不整合、境界条件のエラー、非効率なデバッグループのために一貫して実装に失敗する。
現在のLLMは、宇宙科学の課題に取り組むのに十分な知識と知性を示すことが多いが、完全な自律的なエンジニアではなく、強力なドメインファシリテータとして機能する実装障壁によって制限されている、と結論付けている。
関連論文リスト
- Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering [59.18634614089481]
超長距離機械学習工学(MLE)を習得する自律エージェントML-Master 2.0を提案する。
文脈管理を認知的蓄積のプロセスとして考えることで、階層的認知キャッシング(HCC)を導入する。
HCCは、エージェントが短期的な実験戦略から即時実行を分離することを可能にする。
オープンAIのMLE-Benchを24時間予算で評価すると、ML-Master 2.0は56.44%の最先端のメダルを獲得した。
論文 参考訳(メタデータ) (2026-01-15T13:52:04Z) - The Hierarchy of Agentic Capabilities: Evaluating Frontier Models on Realistic RL Environments [0.11586753333439907]
本稿では、SurgeのリアルeコマースRL環境における150の職場タスクにおけるフロンティアAIモデルの評価実験について述べる。
我々の分析によると、実世界の展開にはモデルがマスターしなければならないエージェント機能の経験的に派生した階層構造が明らかになっている。
ウィーカーモデルは基本的なツールの使用と計画に苦しむが、強いモデルは明示的な指示以上の文脈推論を必要とするタスクで失敗する。
論文 参考訳(メタデータ) (2026-01-13T23:49:06Z) - PILOT: Planning via Internalized Latent Optimization Trajectories for Large Language Models [51.43746425777865]
大規模言語モデル(LLM)は、しばしばグローバル戦略を定式化する能力に欠けており、長い水平タスクにおけるエラーの伝播につながる。
PILOTは,大規模モデルの戦略的監視を本質的な潜伏誘導に内部化するためのフレームワークである。
論文 参考訳(メタデータ) (2026-01-07T12:38:56Z) - Holistic Evaluation of Multimodal LLMs on Spatial Intelligence [81.2547965083228]
空間情報を用いたマルチモーダルLLMの総合評価のためのEASIを提案する。
われわれはこの調査を8つの主要なベンチマークで実施し、総トークン数は100億を超えている。
実験により、GPT-5は空間知能(SI)において前例のない強みを示すが、(2)多種多様なSIタスクにおいて人的性能に欠けることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-18T17:55:17Z) - HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds [0.0]
大規模言語モデル(LLM)は、数学やプログラミングのようなステップバイステップの推論タスクにおいて顕著な能力を示している。
しかし、ソリューションが拡張され、構造化された相互依存的なアクションのシーケンスを必要とする長期計画におけるそれらの習熟度は、まだ未解明のままである。
我々は,RPGにインスパイアされた複雑な仮想世界において,長期計画と構造化推論を評価するために設計された新しいベンチマークであるHeroBenchを紹介する。
論文 参考訳(メタデータ) (2025-08-18T09:59:02Z) - LLM4CMO: Large Language Model-aided Algorithm Design for Constrained Multiobjective Optimization [54.35609820607923]
大規模言語モデル(LLM)は、アルゴリズム設計を支援する新しい機会を提供する。
LLM4CMOは,2つの人口構成をもつ2段階のフレームワークをベースとした新しいCMOEAである。
LLMは複雑な進化最適化アルゴリズムの開発において効率的な共同設計者として機能する。
論文 参考訳(メタデータ) (2025-08-16T02:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。