Fugu-MT 論文翻訳(概要): AstroMind: A High-Fidelity Benchmark for Spacecraft Behavior Reasoning Based on Large Language Models

論文の概要: AstroMind: A High-Fidelity Benchmark for Spacecraft Behavior Reasoning Based on Large Language Models

arxiv url: http://arxiv.org/abs/2605.24573v1
Date: Sat, 23 May 2026 13:23:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:18.251362
Title: AstroMind: A High-Fidelity Benchmark for Spacecraft Behavior Reasoning Based on Large Language Models
Title（参考訳）: AstroMind:大規模言語モデルに基づく宇宙機行動推論のための高忠実ベンチマーク
Authors: Hao Liu, Siyuan Yang, Qinglei Hu, Dongyu Li,
Abstract要約: AstroMindはそのギャップを埋めるために設計された物理地上ベンチマークだ。これは高忠実な天体力学シミュレーションと実際の観測上の制約に基づいている。評価指標は、物理的制約の下での意味的正当性と量的整合性の両方をキャプチャする。
参考スコア（独自算出の注目度）: 13.088755605299154
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding why a spacecraft maneuvers -- rather than simply that it did -- is an increasingly important problem for space domain awareness as Earth orbits grow crowded and contested. Current analysis pipelines are built for detection: they are good at picking up that something happened, less good at reasoning about what it means. AstroMind is a physics-grounded benchmark designed to close that gap. It draws on high-fidelity astrodynamics simulations and real observational constraints, converting them into verifiable reasoning problems across three task types: intent inference, maneuver parameter estimation, and threat assessment. Each scenario includes realistic sensing noise and multi-source textual intelligence at varying reliability levels. Evaluation metrics capture both semantic correctness and quantitative consistency under physical constraints. Benchmarking a suite of open-weight models shows no single model dominates every axis: Qwen3 (32B) leads on intent inference accuracy; QwQ (32B) leads on threat assessment and achieves the lowest median relative error on parsed items; GPT-OSS (20B) produces the strongest judged reasoning quality and extracts the most scalar values for parameter estimation (136 of 241 parsed items). Training data composition and reasoning style matter as much as model size. Structured reasoning prompts help consistently across tested 8B models, with larger gains for those that can already track physical constraints. AstroMind gives the field a shared test for a problem where getting the physics right and reading the tactical situation correctly are both required -- neither is sufficient on its own.
Abstract（参考訳）: 宇宙船がなぜ操作するのかを理解することは、地球軌道が混み合って競争するにつれて、宇宙領域の認識にとってますます重要な問題となっている。現在の分析パイプラインは検出のために構築されています。 AstroMindはそのギャップを埋めるために設計された物理地上ベンチマークだ。これは高忠実な天体力学シミュレーションと実際の観測上の制約に基づいており、これらを意図推論、操作パラメータ推定、脅威評価という3つのタスクタイプにわたる検証可能な推論問題に変換する。各シナリオには、現実的なノイズと、信頼性の異なるマルチソーステキストインテリジェンスが含まれる。評価指標は、物理的制約の下での意味的正当性と量的整合性の両方をキャプチャする。 Qwen3 (32B) は意図推論の精度を導き、QwQ (32B) は脅威評価を導き、パースされた項目に対して最小の相対誤差を達成し、GPT-OSS (20B) は最良判定された推論品質を生成し、パラメータ推定のための最もスカラー値(241項目のうち136項目)を抽出する。データ構成と推論スタイルのトレーニングは、モデルのサイズと同じくらい重要になります。構造的推論は、テスト対象の8Bモデル間で一貫して有効であり、すでに物理的な制約を追跡できるモデルにとっては大きな利益になる。 AstroMindは、物理学を正しく理解し、戦術的な状況を正しく読むことが要求される問題に対して、フィールドを共有テストする。

関連論文リスト

Stargazer: A Scalable Model-Fitting Benchmark Environment for AI Agents under Astrophysical Constraints [48.80158223838359]
我々は、動的で反復的な物理地上モデル適合タスクに基づいてAIエージェントを評価するスケーラブルな環境であるStargazerを紹介した。 Stargazerは3つの難題にまたがる120のタスクで構成されており、20の実際のアーカイブケースを含んでいる。 8つのフロンティアエージェントを評価した結果,数値最適化と物理的制約への固執のギャップが明らかとなった。
論文参考訳（メタデータ） (2026-04-17T03:38:50Z)
RADAR: Benchmarking Vision-Language-Action Generalization via Real-World Dynamics, Spatial-Physical Intelligence, and Autonomous Evaluation [76.22852262683746]
本稿では,現実的な条件下でのVLA一般化を体系的に評価するベンチマークであるRADARを紹介する。 RADARを用いて、複数の最先端のVLAモデルを監査し、その明らかな能力の下で深刻な脆弱性を明らかにする。
論文参考訳（メタデータ） (2026-02-11T16:08:30Z)
Migration as a Probe: A Generalizable Benchmark Framework for Specialist vs. Generalist Machine-Learned Force Fields [1.572216094651749]
機械学習力場(MLFF)は、分子動力学スケールでのアブ初期レベルの精度を実現することによって、計算材料科学を変革している。研究者たちは、スペシャリストモデルをスクラッチから訓練するか、ファウンデーショナリストのファンデーションモデルを使うべきか、ハイブリッドアプローチを使うべきか? 本稿では, 弾性バンドトラジェクトリを用いて診断プローブとして評価する, 欠陥マイグレーション経路を用いたベンチマークフレームワークを提案する。微調整モデルでは、運動特性に対するゼロショットおよびゼロショットのアプローチよりも大幅に優れるが、長距離物理学の部分的な損失を示す。
論文参考訳（メタデータ） (2025-08-27T13:24:41Z)
SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文参考訳（メタデータ） (2025-04-07T02:42:07Z)
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models [58.64449765678416]
思考のランドスケープ(LoT)を導入し、任意の複数選択データセット上で特定の推論手法で推論軌跡を検査する。 LoTは、強いモデルと弱いモデル、正解と誤解、および異なる推論タスクを区別する。トラジェクトリの正しさを評価する軽量検証器にLoTを適用することで、この利点を実証する。
論文参考訳（メタデータ） (2025-03-28T06:09:51Z)
Testing Uncertainty of Large Language Models for Physics Knowledge and Reasoning [0.0]
大規模言語モデル(LLM)は、近年、様々な分野の質問に答える能力で大きな人気を集めている。本稿では,オープンソースLLMの性能評価のための解析手法を提案する。我々は,物理に関する話題における解答精度と変数の関係に注目した。
論文参考訳（メタデータ） (2024-11-18T13:42:13Z)
Investigation of the Robustness of Neural Density Fields [7.67602635520562]
本研究は、トレーニング中のノイズや制約などの外部要因に対する堅牢性の文脈における神経密度場とその相対誤差について検討する。両モデルが多面体およびマスコングラウンドの真理で訓練された場合も同様に機能し、基底の真理が精度のボトルネックではないことを示す。
論文参考訳（メタデータ） (2023-05-31T09:43:49Z)
A machine learning and feature engineering approach for the prediction of the uncontrolled re-entry of space objects [1.0205541448656992]
低地球軌道(LEO)における未制御物体の再突入予測のための深層学習モデルの開発について述べる。このモデルはSequence-to-Sequenceアーキテクチャの修正版に基づいており、400体以上のTLE(Two-Line Element)データから得られた平均高度プロファイルに基づいて訓練されている。この研究の斬新さは、平均高度とともに、ドラッグライクな係数(B*)、平均太陽指数、物体の面積と質量比の3つの新しい入力特徴を含むディープラーニングモデルの導入である。
論文参考訳（メタデータ） (2023-03-17T13:53:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。