論文の概要: Mathematical Reasoning for Unmanned Aerial Vehicles: A RAG-Based Approach for Complex Arithmetic Reasoning
- arxiv url: http://arxiv.org/abs/2506.04998v2
- Date: Mon, 30 Jun 2025 13:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.551695
- Title: Mathematical Reasoning for Unmanned Aerial Vehicles: A RAG-Based Approach for Complex Arithmetic Reasoning
- Title(参考訳): 無人航空機の数学的推論:複雑な算術的推論のためのRAGに基づくアプローチ
- Authors: Mehdi Azarafza, Mojtaba Nayyeri, Faezeh Pasandideh, Steffen Staab, Achim Rettberg,
- Abstract要約: 自律型UAVは、軌道計画や電力管理といったタスクに対して、信頼性の高い数学的推論を必要とする。
本稿では,複数の大規模言語モデルの数学的推論を改善するための検索拡張生成フレームワークであるRAG-UAVを提案する。
実験により, 検索を組み込んだ場合, 解答精度が向上し, 解答精度が最大75%向上し, 不正な定式化選択の事例が減少し, 数値誤差が減少することが確認された。
- 参考スコア(独自算出の注目度): 14.652057895402006
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autonomous UAV operation necessitates reliable mathematical reasoning for tasks such as trajectory planning and power management. While traditional flight control relies on hardcoded equations, recent Large Language Models (LLMs) offer potential for more flexible problem-solving but struggle with reliably selecting and applying correct mathematical formulations and executing precise multi-step arithmetic. We propose RAG-UAV, a retrieval-augmented generation framework designed to improve the mathematical reasoning of several LLMs (including GPT o1/Turbo, Llama-3.2/3.3, Mistral, and DeepSeek R1) in UAV-specific contexts by providing access to relevant domain literature. To conduct an initial assessment, we introduce the UAV-Math-Bench, a 20-question problem set of UAV-centric mathematical problems across four difficulty levels. Our experiments demonstrate that incorporating retrieval substantially increases exact answer accuracy (achieving up to 75% with o1), reduces instances of incorrect formulation selection (from 25% without RAG to 5\% with RAG), and decreases numerical errors, reducing Mean Squared Error (MSE) by orders of magnitude for the best-performing models. This pilot study indicates that RAG can enable general-purpose LLMs to function as more reliable tools for engineering analysis, although direct real-time flight control requires further investigation and validation on a larger scale. All benchmark data, questions, and answers are publicly available.
- Abstract(参考訳): 自律型UAVは、軌道計画や電力管理といったタスクに対して、信頼性の高い数学的推論を必要とする。
従来の飛行制御はハードコード方程式に依存しているが、最近のLarge Language Models (LLM) はより柔軟な問題解決の可能性を秘めている。
本稿では,複数のLLM(GPT o1/Turbo,Llama-3.2/3.3,Mistral,DeepSeek R1)の論理的推論を改善するために,関連するドメイン文献へのアクセスを提供することにより,RAG-UAVを提案する。
UAV-Math-Benchは,4つの難易度にまたがるUAV中心の数学問題集合である。
実験により,検索を組み込むことで解答精度が向上し(o1で75%に達する),不正な定式化選択の事例(RAGで25%からRAGで5\%)が減少し,数値誤差が減少し,平均二乗誤差(MSE)が減少した。
このパイロット研究は、RAGがより信頼性の高い工学解析ツールとして機能できることを示しているが、直接リアルタイム飛行制御はより大規模な調査と検証を必要としている。
すべてのベンチマークデータ、質問、回答が公開されている。
関連論文リスト
- A Small-Scale System for Autoregressive Program Synthesis Enabling Controlled Experimentation [4.499832265081113]
Integer Virtual Machine (VM)、多種多様なタスクの真のプログラムからなるデータセット、そして200ドル以下の計算コストでトレーニングされた自己回帰変換器モデルを含むCadmusと呼ばれるシステムを提案する。
このシステムは、研究者がトレーニング分布を効果的かつ安価に制御できるような環境で、プログラム完了、アウト・オブ・ディストリビューション表現、帰納的推論、および指示に従うのに使用できる。
論文 参考訳(メタデータ) (2026-02-09T19:03:04Z) - Evaluating Large Language Models for Time Series Anomaly Detection in Aerospace Software [46.75681367373185]
時系列異常検出(TSAD)は、航空宇宙ソフトウェアシステムの安全性と信頼性を確保するために不可欠である。
大規模言語モデル(LLM)は、教師なしアプローチに代わる、有望なトレーニングなしの代替手段を提供する。
ATSADBenchは航空宇宙TSADの最初のベンチマークである。
論文 参考訳(メタデータ) (2026-01-18T15:07:16Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - Multimodal Mathematical Reasoning Embedded in Aerial Vehicle Imagery: Benchmarking, Analysis, and Exploration [39.84712917520324]
航空機画像におけるマルチモーダルな数学的推論を厳格に評価する最初のベンチマークであるAVI-Mathを紹介する。
データセットは、UAVビューから取得した高品質な車両関連質問3,773件からなり、6つの数学科目と20のトピックをカバーしている。
我々の分析は、現在の視覚言語モデルにおける数学的推論能力の重大な制限を強調している。
論文 参考訳(メタデータ) (2025-09-12T08:46:49Z) - Mathematical Computation and Reasoning Errors by Large Language Models [3.0309252269809264]
大規模言語モデル(LLM)は、AIによる教育指導と評価にますます活用されている。
本研究は,算術,代数学,数論を含む3分野の数学課題を解く4つの LLM の精度を評価することに焦点を当てる。
推理強化された OpenAI o1 モデルが3つの数学タスクのカテゴリで常に高い精度またはほぼ完璧な精度を達成したことが観察された。
論文 参考訳(メタデータ) (2025-08-13T16:33:02Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - Agentic-R1: Distilled Dual-Strategy Reasoning [44.848089301154026]
現在のロングチェーン・オブ・ソート(ロングCoT)モデルは数学的推論において優れているが、遅くてエラーを起こしやすい自然言語トレースに依存している。
複数の教師の補完的推論戦略を統合された学生モデルに蒸留する微調整フレームワークであるDualDistillを導入する。
本手法は,計算集約型ベンチマークと標準ベンチマークの両方を含むタスクの精度を向上する。
論文 参考訳(メタデータ) (2025-07-08T06:35:16Z) - Integrating Counterfactual Simulations with Language Models for Explaining Multi-Agent Behaviour [26.04296415316974]
AXIS(Interrogative Simulation)を用いたエージェントeXplanationを提案する。
AXISは、事前訓練されたマルチエージェントポリシーに対して、理解不能な因果説明を生成する。
5LLMの10シナリオにわたる自律走行におけるAXISの評価を行った。
論文 参考訳(メタデータ) (2025-05-23T12:19:18Z) - Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning [66.43194385702297]
大規模言語モデル(LLM)は、特に強化学習(RL)を通じて強化された場合、強力な推論能力を示している。
NEMOTRON-CROSSTHINKは、多領域コーパスを体系的に組み込んだフレームワークであり、合成および実世界の問合せ対を含む。
論文 参考訳(メタデータ) (2025-04-15T21:37:13Z) - FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning [15.59540726867483]
我々は、ガイド付き復号法では、ステップごとの正当性を保証するよりも、不完全推論経路の可能性を評価する方が有利であると主張している。
誘導復号化のための$textitoutcomeの監督が本質的に価値モデルとして機能するという発見に触発されて、アウトカム管理価値モデル(OVM)を提案する。
GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2023-11-16T09:56:28Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。