論文の概要: Data Analysis and Performance Evaluation of Simulation Deduction Based on LLMs
- arxiv url: http://arxiv.org/abs/2511.10651v1
- Date: Sat, 01 Nov 2025 01:32:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.216202
- Title: Data Analysis and Performance Evaluation of Simulation Deduction Based on LLMs
- Title(参考訳): LLMに基づくシミュレーション推論のデータ解析と性能評価
- Authors: Shansi Zhang, Min Li,
- Abstract要約: シミュレーション推論のデータ解析と性能評価は、現代の戦争において重要な役割を担っている。
従来の手動分析手法は時間を要するものであり、人間のエラーによって制限される。
本稿では,まず複雑なタスクを複数のサブタスクに分解し,効果的なシステムプロンプトを設計する手法を提案する。
- 参考スコア(独自算出の注目度): 10.405577443485841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data analysis and performance evaluation of simulation deduction plays a pivotal role in modern warfare, which enables military personnel to gain invaluable insights into the potential effectiveness of different strategies, tactics, and operational plans. Traditional manual analysis approach is time-consuming and limited by human errors. To enhance efficiency and accuracy, large language models (LLMs) with strong analytical and inferencing capabilities can be employed. However, high-quality analysis reports with well-structured formatting cannot be obtained through a single instruction input to the LLM. To tackle this issue, we propose a method that first decomposes the complex task into several sub-tasks and designs effective system prompts and user prompts for each sub-task. Multi-round interactions with the LLM incorporating self-check and reflection are then conducted to enable structured data extraction as well as multi-step analysis and evaluation. Furthermore, custom tools are defined and invoked to generate figures and compute metrics. We also design multiple report templates, each tailored to a specific application and input data type, ensuring their adaptability across a variety of scenarios. Extensive evaluation results demonstrate that the reports generated by our method exhibit higher quality, therefore obtaining higher scores than the baseline method.
- Abstract(参考訳): シミュレーション推論のデータ分析と性能評価は、現代の戦争において重要な役割を担っている。
従来の手動分析手法は時間を要するものであり、人間のエラーによって制限される。
効率性と精度を高めるため、強力な分析機能と推論機能を備えた大規模言語モデル(LLM)を用いることができる。
しかし,LLMへの単一命令入力により,構造化された書式を用いた高品質な解析レポートを得ることはできない。
そこで本研究では,まず複雑なタスクを複数のサブタスクに分解し,各サブタスクに対して効率的なシステムプロンプトとユーザプロンプトを設計する手法を提案する。
次に自己チェックとリフレクションを取り入れたLLMとのマルチラウンドインタラクションを行い、構造化データ抽出とマルチステップ解析と評価を可能にする。
さらに、数値を生成し、メトリクスを計算するためにカスタムツールが定義され、呼び出される。
また、複数のレポートテンプレートを設計し、それぞれが特定のアプリケーションや入力データタイプに合わせて調整し、さまざまなシナリオにまたがって適合性を保証します。
その結果,本手法により得られた報告は高い品質を示し,その結果,ベースライン法よりも高いスコアが得られた。
関連論文リスト
- Teaching LLMs to Think Mathematically: A Critical Study of Decision-Making via Optimization [1.246870021158888]
本稿では,大規模言語モデル(LLM)の数学的プログラミングによる意思決定問題の定式化と解決能力について検討する。
まず、LLMがドメイン間の最適化問題をいかに理解し、構造化し、解決するかを評価するため、最近の文献の体系的レビューとメタ分析を行う。
計算機ネットワークにおける問題に対する最適化モデルの自動生成において、最先端のLLMの性能を評価するために設計されたターゲット実験により、系統的エビデンスを補完する。
論文 参考訳(メタデータ) (2025-08-25T14:52:56Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - AIRepr: An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science [8.281093505963158]
大規模言語モデル(LLM)は、実行可能なコード生成を通じてデータ分析を自動化するために、ますます使われるようになっている。
本稿では,LLM生成データ分析の自動評価と改善のための分析・検査フレームワークであるAIReprについて述べる。
論文 参考訳(メタデータ) (2025-02-23T01:15:50Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Designing Algorithms Empowered by Language Models: An Analytical Framework, Case Studies, and Insights [86.06371692309972]
本研究では,大規模言語モデル(LLM)に基づくアルゴリズムの設計と解析のための分析フレームワークを提案する。
提案する枠組みは頭痛を緩和する試みとして機能する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z) - Can Large Language Models Serve as Data Analysts? A Multi-Agent Assisted Approach for Qualitative Data Analysis [4.539569292151314]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)における人間とロボットの協調を可能にする
本研究では,人間の意思決定支援をAIと相乗化して,さまざまな定性的データ分析手法を自動化するLLMベースのマルチエージェントシステムの設計と開発を行う。
論文 参考訳(メタデータ) (2024-02-02T13:10:46Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。
また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。