Fugu-MT 論文翻訳(概要): How Well Can AI Build SD Models?

論文の概要: How Well Can AI Build SD Models?

arxiv url: http://arxiv.org/abs/2503.15580v1
Date: Wed, 19 Mar 2025 14:48:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.11866
Title: How Well Can AI Build SD Models?
Title（参考訳）: AIはいかにしてSDモデルを構築することができるか?
Authors: William Schoenberg, Davidson Girard, Saras Chung, Ellen O'Neill, Janet Velasquez, Sara Metcalf,
Abstract要約: 本稿では,AI生成因果写像の評価のための2つの指標について紹介する。我々は,11種類のLDMを,因果翻訳の能力とユーザの指示に適合する能力で試験した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Introduction: As system dynamics (SD) embraces automation, AI offers efficiency but risks bias from missing data and flawed models. Models that omit multiple perspectives and data threaten model quality, whether created by humans or with the assistance of AI. To reduce uncertainty about how well AI can build SD models, we introduce two metrics for evaluation of AI-generated causal maps: technical correctness (causal translation) and adherence to instructions (conformance). Approach: We developed an open source project called sd-ai to provide a basis for collaboration in the SD community, aiming to fully harness the potential of AI based tools like ChatGPT for dynamic modeling. Additionally, we created an evaluation theory along with a comprehensive suite of tests designed to evaluate any such tools developed within the sd-ai ecosystem. Results: We tested 11 different LLMs on their ability to do causal translation as well as conform to user instruction. gpt-4.5-preview was the top performer, scoring 92.9% overall, excelling in both tasks. o1 scored 100% in causal translation. gpt-4o identified all causal links but struggled with positive polarity in decreasing terms. While gpt-4.5-preview and o1 are most accurate, gpt-4o is the cheapest. Discussion: Causal translation and conformance tests applied to the sd-ai engine reveal significant variations across lLLMs, underscoring the need for continued evaluation to ensure responsible development of AI tools for dynamic modeling. To address this, an open collaboration among tool developers, modelers, and stakeholders is launched to standardize measures for evaluating the capacity of AI tools to improve the modeling process.
Abstract（参考訳）: 導入: システムダイナミクス(SD)が自動化を受け入れるにつれて、AIは効率性を提供するが、欠落したデータや欠陥のあるモデルからのリスクバイアスを提供する。複数の視点やデータを省略するモデルは、人間が作成したり、AIの助けを借りてモデルの品質を脅かす。 AIがSDモデルをどのように構築できるかの不確実性を低減するため、我々は、AIが生成する因果写像を評価するための2つの指標、すなわち、技術的正確性(因果翻訳)と命令の順守(適合性)を紹介する。アプローチ:私たちは、SDコミュニティにおけるコラボレーションの基盤を提供する、sd-aiと呼ばれるオープンソースプロジェクトを開発しました。さらに、我々は、sd-aiエコシステム内で開発されたツールを評価するための総合的なテストスイートとともに、評価理論を作成しました。結果:11種類のLDMを,因果翻訳の能力とユーザ指導の適合性について検討した。 gpt-4.5-previewは、総合で92.9%を獲得し、両方のタスクで優れた成績を残した。 O1は因果翻訳で100%得点しました gpt-4oはすべての因果関係を同定した。 gpt-4.5-previewとo1が最も正確だが、gpt-4oは最も安い。議論: sd-aiエンジンに適用された因果変換と適合性テストは、動的モデリングのためのAIツールの責任ある開発を保証するための継続的な評価の必要性を強調し、lLLM間で大きなバリエーションを示している。これを解決するために、ツール開発者、モデラー、ステークホルダー間のオープンなコラボレーションがローンチされ、AIツールのキャパシティを評価するための基準を標準化し、モデリングプロセスを改善する。

関連論文リスト

Scalable, Symbiotic, AI and Non-AI Agent Based Parallel Discrete Event Simulations [0.0]
本稿では,複数のAIエージェントと非AIエージェントを組み合わせた並列離散イベントシミュレーション(PDES)手法を提案する。我々は、4つの異なるドメインから4つの問題を解き、その結果をAIモデルだけで比較することで、我々のアプローチを評価する。その結果,バニラモデルの精度が23%未満であるため,アプローチ全体の精度は68%であった。
論文参考訳（メタデータ） (2025-05-28T17:50:01Z)
General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文参考訳（メタデータ） (2025-03-09T01:13:56Z)
VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文参考訳（メタデータ） (2025-03-08T10:54:42Z)
Linear Discriminant Analysis in Credit Scoring: A Transparent Hybrid Model Approach [9.88281854509076]
特徴量削減手法として線形判別分析 (LDA) を実装し, モデルの複雑さの軽減を図る。我々のハイブリッドモデルであるXG-DNNは、99.45%の精度と99%のF1スコアでLDAを上回りました。モデル決定を解釈するために、LIME (local) と Morris Sensitivity Analysis (global) という2つの異なる説明可能なAI技術を適用した。
論文参考訳（メタデータ） (2024-12-05T14:21:18Z)
Learning to Generate and Evaluate Fact-checking Explanations with Transformers [10.970249299147866]
XAI(Explainable Artificial Antelligence)の研究我々は,人間のアクセス可能な説明を生成することによって,意思決定を文脈化し,正当化するトランスフォーマーベースの事実チェックモデルを開発した。我々は人工知能(AI)による説明と人間の判断を一致させる必要性を強調した。
論文参考訳（メタデータ） (2024-10-21T06:22:51Z)
Fine-tuning Large Language Models for Automated Diagnostic Screening Summaries [0.024105148723769353]
我々は、精神状態検査から簡潔な要約を生成するために、いくつかの最先端の大規模言語モデル(LLM)を評価した。確立されたROUGEメトリクスと人間評価器からの入力を用いて、要約生成のための4つの異なるモデルを厳格に評価する。我々の最高性能の微調整モデルは既存のモデルより優れており、ROUGE-1とROUGE-Lはそれぞれ0.810と0.764である。
論文参考訳（メタデータ） (2024-03-29T12:25:37Z)
Cloud-based XAI Services for Assessing Open Repository Models Under Adversarial Attacks [7.500941533148728]
計算コンポーネントとアセスメントタスクをパイプラインにカプセル化するクラウドベースのサービスフレームワークを提案する。我々は、AIモデルの5つの品質特性を評価するために、XAIサービスの応用を実証する。
論文参考訳（メタデータ） (2024-01-22T00:37:01Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
A comprehensible analysis of the efficacy of Ensemble Models for Bug Prediction [0.0]
我々は,単一のAIモデルとアンサンブルAIモデルという,2つのAIベースのアプローチの比較と分析を行い,Javaクラスがバグのある確率を予測する。実験結果から,AIモデルのアンサンブルは,個々のAIモデルの適用結果より優れていたことが示唆された。
論文参考訳（メタデータ） (2023-10-18T17:43:54Z)
ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文参考訳（メタデータ） (2022-06-14T17:09:35Z)
Data-Driven and SE-assisted AI Model Signal-Awareness Enhancement and Introspection [61.571331422347875]
モデルの信号認識性を高めるためのデータ駆動型手法を提案する。コード複雑性のSE概念とカリキュラム学習のAIテクニックを組み合わせる。モデル信号認識における最大4.8倍の改善を実現している。
論文参考訳（メタデータ） (2021-11-10T17:58:18Z)
Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文参考訳（メタデータ） (2020-07-14T03:49:43Z)
Model-based actor-critic: GAN (model generator) + DRL (actor-critic) => AGI [0.0]
本稿ではアクター批判的(モデルフリー)アーキテクチャに(生成的/予測的)環境モデルを追加することを提案する。提案するAIモデルは(モデルフリーの)DDPGに似ているため、モデルベースDDPGと呼ばれる。モデルベースアクター批判におけるDRLとGANは,各タスクを(モデルフリーの)DDPGと同等の性能で解決するために,段階的な目標駆動知性を必要とすることを示した。
論文参考訳（メタデータ） (2020-04-04T02:05:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。