論文の概要: Can Large Language Models Implement Agent-Based Models? An ODD-based Replication Study
- arxiv url: http://arxiv.org/abs/2602.10140v1
- Date: Sun, 08 Feb 2026 19:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.168228
- Title: Can Large Language Models Implement Agent-Based Models? An ODD-based Replication Study
- Title(参考訳): 大規模言語モデルはエージェントベースモデルを実装することができるか? ODDに基づくレプリケーションスタディ
- Authors: Nuno Fachada, Daniel Fernandes, Carlos M. Fernandes, João P. Matos-Carvalho,
- Abstract要約: 大規模言語モデル(LLM)は、テキスト記述から非自明な実行可能なコードを合成できるようになった。
LLMは、複製、検証、検証をサポートする方法で、標準化された仕様からエージェントベースのモデルを確実に実装できますか?
制御されたODD-to-code翻訳タスクにおいて17の現代LLMを評価する。
- 参考スコア(独自算出の注目度): 0.6821122205224714
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) can now synthesize non-trivial executable code from textual descriptions, raising an important question: can LLMs reliably implement agent-based models from standardized specifications in a way that supports replication, verification, and validation? We address this question by evaluating 17 contemporary LLMs on a controlled ODD-to-code translation task, using the PPHPC predator-prey model as a fully specified reference. Generated Python implementations are assessed through staged executability checks, model-independent statistical comparison against a validated NetLogo baseline, and quantitative measures of runtime efficiency and maintainability. Results show that behaviorally faithful implementations are achievable but not guaranteed, and that executability alone is insufficient for scientific use. GPT-4.1 consistently produces statistically valid and efficient implementations, with Claude 3.7 Sonnet performing well but less reliably. Overall, the findings clarify both the promise and current limitations of LLMs as model engineering tools, with implications for reproducible agent-based and environmental modelling.
- Abstract(参考訳): LLMは、複製、検証、バリデーションをサポートする方法で、標準化された仕様からエージェントベースのモデルを確実に実装できますか?
我々は,PPHPCプレデター・プリーモデルを用いて,制御されたODD-to-code翻訳タスクにおいて17の現代LLMを評価することで,この問題に対処する。
生成したPythonの実装は、ステージ化された実行可能性チェック、検証済みのNetLogoベースラインに対するモデル非依存の統計的比較、実行効率と保守性の定量的測定によって評価される。
結果は、行動に忠実な実装は達成可能であるが保証されていないこと、そして実行可能性だけでは科学的な利用には不十分であることを示している。
GPT-4.1 は統計的に有効で効率的な実装であり、Claude 3.7 Sonnet は性能は良好だが信頼性は低い。
本研究は, モデル工学ツールとしてのLLMの約束と現状の限界を明らかにするとともに, 再現性のあるエージェントベースおよび環境モデルの構築にも寄与することを示した。
関連論文リスト
- Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - PAT-Agent: Autoformalization for Model Checking [17.082027022913998]
PAT-Agentは自然言語の自動形式化と形式モデル修復のためのエンドツーエンドフレームワークである。
これは、大きな言語モデルの生成能力と形式的検証の厳密さを組み合わせたものである。
論文 参考訳(メタデータ) (2025-09-28T06:32:14Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。