論文の概要: Benchmarking System Dynamics AI Assistants: Cloud Versus Local LLMs on CLD Extraction and Discussion
- arxiv url: http://arxiv.org/abs/2604.18566v2
- Date: Tue, 21 Apr 2026 03:08:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.956556
- Title: Benchmarking System Dynamics AI Assistants: Cloud Versus Local LLMs on CLD Extraction and Discussion
- Title(参考訳): ベンチマークシステムDynamics AIアシスタント: CLD抽出と議論におけるクラウドVersusローカルLLM
- Authors: Terry Leitch,
- Abstract要約: プロプライエタリなクラウドAPIとローカルにホストされたオープンコンテキストモデルの両方にまたがる、大規模な言語モデルファミリの体系的な評価を行う。
CLD抽出では、クラウドモデルは77~89%のパスレートを達成し、最高のローカルモデルは77%に達する(KimiK2.5GGUFQ3、ゼロショットエンジン中間層クラウド)。
議論では、最良のローカルモデルは50-100%モデル構築ステップを達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a systematic evaluation of large language model families -- spanning both proprietary cloud APIs and locally-hosted open-source models -- on two purpose-built benchmarks for System Dynamics AI assistance: the \textbf{CLD Leaderboard} (53 tests, structured causal loop diagram extraction) and the \textbf{Discussion Leaderboard} (interactive model discussion, feedback explanation, and model building coaching). On CLD extraction, cloud models achieve 77--89\% overall pass rates; the best local model reaches 77\% (Kimi~K2.5~GGUF~Q3, zero-shot engine), matching mid-tier cloud performance. On Discussion, the best local models achieve 50--100\% on model building steps and 47--75\% on feedback explanation, but only 0--50\% on error fixing -- a category dominated by long-context prompts that expose memory limits in local deployments. A central contribution of this paper is a systematic analysis of \textit{model type effects} on performance: we compare reasoning vs.\ instruction-tuned architectures, GGUF (llama.cpp) vs.\ MLX (mlx\_lm) backends, and quantization levels (Q3 / Q4\_K\_M / MLX-3bit / MLX-4bit / MLX-6bit) across the same underlying model families. We find that backend choice has larger practical impact than quantization level: mlx\_lm does not enforce JSON schema constraints, requiring explicit prompt-level JSON instructions, while llama.cpp grammar-constrained sampling handles JSON reliably but causes indefinite generation on long-context prompts for dense models. We document the full parameter sweep ($t$, $p$, $k$) for all local models, cleaned timing data (stuck requests excluded), and a practitioner guide for running 671B--123B parameter models on Apple~Silicon.
- Abstract(参考訳): 大規模言語モデルのファミリー(プロプライエタリなクラウドAPIとローカルにホストされたオープンソースモデルの両方にまたがる)を、System Dynamics AIアシストのための2つの目的に構築されたベンチマークで体系的に評価する: \textbf{CLD Leaderboard} (53テスト、構造化因果ループダイアグラム抽出)と \textbf{Discussion Leaderboard} (インタラクティブなモデルディスカッション、フィードバック説明、モデル構築コーチング)。
CLD抽出では、クラウドモデルは77--89\%全体のパスレートを達成し、最高のローカルモデルは77\%に達する(Kimi~K2.5~GGUF~Q3、ゼロショットエンジン)。
モデル構築ステップで50--100\%、フィードバック説明で47--75\%を達成するが、エラー修正では0--50\%に留まる。
この論文の中心的な貢献は、パフォーマンスに対する『textit{model type effect}』の体系的分析である。
GGUF (llama.cpp) 対。
MLX (mlx\_lm)バックエンドと量子化レベル (Q3 / Q4\_K\_M / MLX-3bit / MLX-4bit / MLX-6bit) は同じモデルファミリである。
mlx\_lmはJSONスキーマの制約を強制せず、明示的なプロンプトレベルのJSON命令を必要とする。
すべてのローカルモデルに対する完全なパラメータスイープ(t$, $p$, $k$)、クリーンなタイミングデータ(stuck requestを除外)、Apple~Siliconで671B--123Bパラメータモデルを実行するための実践的ガイドを文書化しています。
関連論文リスト
- Beyond LLM-as-a-Judge: Deterministic Metrics for Multilingual Generative Text Evaluation [20.309826321619482]
大規模言語モデル(LLM)は、生成したテキストを評価するための自動判断器として、ますます採用されている。
我々は、相補的で決定論的に学習されたメトリクスのファミリーである textbftextit OmniScore を提案する。
大規模総合管理モデル(sim$564k, textbf107 言語)を訓練し,手動で8,617 の注釈付きインスタンスを用いて評価した。
論文 参考訳(メタデータ) (2026-04-06T18:36:54Z) - Stacked from One: Multi-Scale Self-Injection for Context Window Extension [69.24689919827817]
Modelnameは、多粒度コンテキスト圧縮とクエリ対応情報取得に基づく新しいフレームワークである。
modelnameachievesパフォーマンスは、強いベースラインと同等か、優れている。
論文 参考訳(メタデータ) (2026-03-05T03:16:16Z) - One LLM to Train Them All: Multi-Task Learning Framework for Fact-Checking [7.856998585396422]
大規模言語モデル(LLM)は、統合されたエンドツーエンドの検証パイプラインを有効にすることで、自動化されたファクトチェック(AFC)を再構築している。
我々は,主張検出,エビデンスランキング,スタンス検出を共同で行うために,単一のモデルを微調整する,より効率的な代替手段として,textbfmulti-task Learning (MTL)を提案する。
論文 参考訳(メタデータ) (2026-01-16T13:44:25Z) - MERGETUNE: Continued fine-tuning of vision-language models [77.8627788911249]
微調整視覚言語モデル(VLM)は、しばしば事前訓練された知識を破滅的に忘れてしまう。
ゼロショットモデルに適応した後に事前学習した知識を回復するための新しいパラダイムである連続微調整(CFT)を導入する。
論文 参考訳(メタデータ) (2026-01-15T15:15:53Z) - Are Prompts All You Need? Evaluating Prompt-Based Large Language Models (LLM)s for Software Requirements Classification [1.1458853556386799]
本研究は,プロンプトベースの大規模言語モデルがデータニーズを低減できるかどうかを検証する。
PMISEとSecReqという2つの英語データセット上で、複数のタスクにまたがる複数のモデルとスタイルをベンチマークする。
論文 参考訳(メタデータ) (2025-09-17T09:58:26Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。