論文の概要: Mathematical Reasoning for Unmanned Aerial Vehicles: A RAG-Based Approach for Complex Arithmetic Reasoning
- arxiv url: http://arxiv.org/abs/2506.04998v1
- Date: Thu, 05 Jun 2025 13:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.714835
- Title: Mathematical Reasoning for Unmanned Aerial Vehicles: A RAG-Based Approach for Complex Arithmetic Reasoning
- Title(参考訳): 無人航空機の数学的推論:複雑な算術的推論のためのRAGに基づくアプローチ
- Authors: Mehdi Azarafza, Mojtaba Nayyeri, Faezeh Pasandideh, Steffen Staab, Achim Rettberg,
- Abstract要約: 自律型UAVは、軌道計画や電力管理といったタスクに対して、信頼性の高い数学的推論を必要とする。
本稿では,複数の大規模言語モデル (LLM) の数学的推論を改善するために,UAV固有の文脈下での検索拡張生成フレームワークであるRAG-UAVを提案する。
実験により,検索を組み込むことで解答精度を大幅に向上し(o1で75%まで達成),不正な定式化選択の事例を25%から5%に削減し,数値誤差を低減し,平均二乗誤差(MSE)を最良性能モデルの桁数で低減した。
- 参考スコア(独自算出の注目度): 14.652057895402006
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autonomous UAV operation necessitates reliable mathematical reasoning for tasks such as trajectory planning and power management. While traditional flight control relies on hardcoded equations, recent Large Language Models (LLMs) offer potential for more flexible problem-solving but struggle with reliably selecting and applying correct mathematical formulations and executing precise multi-step arithmetic. We propose RAG-UAV, a retrieval-augmented generation framework designed to improve the mathematical reasoning of several LLMs (including GPT o1/Turbo, Llama-3.2/3.3, Mistral, and DeepSeek R1) in UAV-specific contexts by providing access to relevant domain literature. To conduct an initial assessment, we introduce the UAV-Math-Bench, a small problem set comprising 20 UAV-centric mathematical problems across four difficulty levels. Our experiments demonstrate that incorporating retrieval substantially increases exact answer accuracy (achieving up to 75% with o1), reduces instances of incorrect formulation selection (from 25% without RAG to 5% with RAG), decreases numerical errors, reducing Mean Squared Error (MSE) by orders of magnitude for the best-performing models. This pilot study indicates that RAG can enable general-purpose LLMs to function as more reliable tools for engineering analysis, although direct real-time flight control requires further investigation and validation on a larger scale. All benchmark data, question and answer are publicly available.
- Abstract(参考訳): 自律型UAVは、軌道計画や電力管理といったタスクに対して、信頼性の高い数学的推論を必要とする。
従来の飛行制御はハードコード方程式に依存しているが、最近のLarge Language Models (LLM) はより柔軟な問題解決の可能性を秘めている。
本稿では,複数のLLM(GPT o1/Turbo,Llama-3.2/3.3,Mistral,DeepSeek R1)の論理的推論を改善するために,関連するドメイン文献へのアクセスを提供することにより,RAG-UAVを提案する。
UAV-Math-Benchは、4つの難易度で20個のUAV中心の数学的問題からなる小さな問題である。
実験により,検索を組み込むことで解答精度を大幅に向上し(o1で75%まで達成),不正な定式化選択の事例を25%から5%に削減し,数値誤差を低減し,平均二乗誤差(MSE)を最良性能モデルの桁数で低減した。
このパイロット研究は、RAGがより信頼性の高い工学解析ツールとして機能できることを示しているが、直接リアルタイム飛行制御はより大規模な調査と検証を必要としている。
すべてのベンチマークデータ、質問、回答が公開されている。
関連論文リスト
- Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning [66.43194385702297]
大規模言語モデル(LLM)は、特に強化学習(RL)を通じて強化された場合、強力な推論能力を示している。
NEMOTRON-CROSSTHINKは、多領域コーパスを体系的に組み込んだフレームワークであり、合成および実世界の問合せ対を含む。
論文 参考訳(メタデータ) (2025-04-15T21:37:13Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning [15.59540726867483]
我々は、ガイド付き復号法では、ステップごとの正当性を保証するよりも、不完全推論経路の可能性を評価する方が有利であると主張している。
誘導復号化のための$textitoutcomeの監督が本質的に価値モデルとして機能するという発見に触発されて、アウトカム管理価値モデル(OVM)を提案する。
GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2023-11-16T09:56:28Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。