論文の概要: How Well Can AI Build SD Models?
- arxiv url: http://arxiv.org/abs/2503.15580v1
- Date: Wed, 19 Mar 2025 14:48:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:34:35.191911
- Title: How Well Can AI Build SD Models?
- Title(参考訳): AIはいかにしてSDモデルを構築することができるか?
- Authors: William Schoenberg, Davidson Girard, Saras Chung, Ellen O'Neill, Janet Velasquez, Sara Metcalf,
- Abstract要約: 本稿では,AI生成因果写像の評価のための2つの指標について紹介する。
我々は,11種類のLDMを,因果翻訳の能力とユーザの指示に適合する能力で試験した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Introduction: As system dynamics (SD) embraces automation, AI offers efficiency but risks bias from missing data and flawed models. Models that omit multiple perspectives and data threaten model quality, whether created by humans or with the assistance of AI. To reduce uncertainty about how well AI can build SD models, we introduce two metrics for evaluation of AI-generated causal maps: technical correctness (causal translation) and adherence to instructions (conformance). Approach: We developed an open source project called sd-ai to provide a basis for collaboration in the SD community, aiming to fully harness the potential of AI based tools like ChatGPT for dynamic modeling. Additionally, we created an evaluation theory along with a comprehensive suite of tests designed to evaluate any such tools developed within the sd-ai ecosystem. Results: We tested 11 different LLMs on their ability to do causal translation as well as conform to user instruction. gpt-4.5-preview was the top performer, scoring 92.9% overall, excelling in both tasks. o1 scored 100% in causal translation. gpt-4o identified all causal links but struggled with positive polarity in decreasing terms. While gpt-4.5-preview and o1 are most accurate, gpt-4o is the cheapest. Discussion: Causal translation and conformance tests applied to the sd-ai engine reveal significant variations across lLLMs, underscoring the need for continued evaluation to ensure responsible development of AI tools for dynamic modeling. To address this, an open collaboration among tool developers, modelers, and stakeholders is launched to standardize measures for evaluating the capacity of AI tools to improve the modeling process.
- Abstract(参考訳): 導入: システムダイナミクス(SD)が自動化を受け入れるにつれて、AIは効率性を提供するが、欠落したデータや欠陥のあるモデルからのリスクバイアスを提供する。
複数の視点やデータを省略するモデルは、人間が作成したり、AIの助けを借りてモデルの品質を脅かす。
AIがSDモデルをどのように構築できるかの不確実性を低減するため、我々は、AIが生成する因果写像を評価するための2つの指標、すなわち、技術的正確性(因果翻訳)と命令の順守(適合性)を紹介する。
アプローチ:私たちは、SDコミュニティにおけるコラボレーションの基盤を提供する、sd-aiと呼ばれるオープンソースプロジェクトを開発しました。
さらに、我々は、sd-aiエコシステム内で開発されたツールを評価するための総合的なテストスイートとともに、評価理論を作成しました。
結果:11種類のLDMを,因果翻訳の能力とユーザ指導の適合性について検討した。
gpt-4.5-previewは、総合で92.9%を獲得し、両方のタスクで優れた成績を残した。
O1は因果翻訳で100%得点しました
gpt-4oはすべての因果関係を同定した。
gpt-4.5-previewとo1が最も正確だが、gpt-4oは最も安い。
議論: sd-aiエンジンに適用された因果変換と適合性テストは、動的モデリングのためのAIツールの責任ある開発を保証するための継続的な評価の必要性を強調し、lLLM間で大きなバリエーションを示している。
これを解決するために、ツール開発者、モデラー、ステークホルダー間のオープンなコラボレーションがローンチされ、AIツールのキャパシティを評価するための基準を標準化し、モデリングプロセスを改善する。
関連論文リスト
- Linear Discriminant Analysis in Credit Scoring: A Transparent Hybrid Model Approach [9.88281854509076]
特徴量削減手法として線形判別分析 (LDA) を実装し, モデルの複雑さの軽減を図る。
我々のハイブリッドモデルであるXG-DNNは、99.45%の精度と99%のF1スコアでLDAを上回りました。
モデル決定を解釈するために、LIME (local) と Morris Sensitivity Analysis (global) という2つの異なる説明可能なAI技術を適用した。
論文 参考訳(メタデータ) (2024-12-05T14:21:18Z) - PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。
PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。
私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文 参考訳(メタデータ) (2024-10-14T11:30:18Z) - Fine-tuning Large Language Models for Automated Diagnostic Screening Summaries [0.024105148723769353]
我々は、精神状態検査から簡潔な要約を生成するために、いくつかの最先端の大規模言語モデル(LLM)を評価した。
確立されたROUGEメトリクスと人間評価器からの入力を用いて、要約生成のための4つの異なるモデルを厳格に評価する。
我々の最高性能の微調整モデルは既存のモデルより優れており、ROUGE-1とROUGE-Lはそれぞれ0.810と0.764である。
論文 参考訳(メタデータ) (2024-03-29T12:25:37Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - A comprehensible analysis of the efficacy of Ensemble Models for Bug
Prediction [0.0]
我々は,単一のAIモデルとアンサンブルAIモデルという,2つのAIベースのアプローチの比較と分析を行い,Javaクラスがバグのある確率を予測する。
実験結果から,AIモデルのアンサンブルは,個々のAIモデルの適用結果より優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-10-18T17:43:54Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Data-Driven and SE-assisted AI Model Signal-Awareness Enhancement and
Introspection [61.571331422347875]
モデルの信号認識性を高めるためのデータ駆動型手法を提案する。
コード複雑性のSE概念とカリキュラム学習のAIテクニックを組み合わせる。
モデル信号認識における最大4.8倍の改善を実現している。
論文 参考訳(メタデータ) (2021-11-10T17:58:18Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Model-based actor-critic: GAN (model generator) + DRL (actor-critic) =>
AGI [0.0]
本稿ではアクター批判的(モデルフリー)アーキテクチャに(生成的/予測的)環境モデルを追加することを提案する。
提案するAIモデルは(モデルフリーの)DDPGに似ているため、モデルベースDDPGと呼ばれる。
モデルベースアクター批判におけるDRLとGANは,各タスクを(モデルフリーの)DDPGと同等の性能で解決するために,段階的な目標駆動知性を必要とすることを示した。
論文 参考訳(メタデータ) (2020-04-04T02:05:54Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。