論文の概要: SimBench: A Rule-Based Multi-Turn Interaction Benchmark for Evaluating an LLM's Ability to Generate Digital Twins
- arxiv url: http://arxiv.org/abs/2408.11987v1
- Date: Wed, 21 Aug 2024 20:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 17:44:43.122173
- Title: SimBench: A Rule-Based Multi-Turn Interaction Benchmark for Evaluating an LLM's Ability to Generate Digital Twins
- Title(参考訳): SimBench: LLMのディジタルツイン生成能力を評価するためのルールベースのマルチターンインタラクションベンチマーク
- Authors: Jingquan Wang, Harry Zhang, Huzaifa Mustafa Unjhawala, Peter Negrut, Shu Wang, Khailanii Slaton, Radu Serban, Jin-Long Wu, Dan Negrut,
- Abstract要約: シムベンチ(SimBench)は、学生大言語モデル(S-LLM)のデジタルツイン(DT)生成能力を評価するためのベンチマークである。
S-LLMのコレクションを与えられたこのベンチマークは、高品質なDTを生成する能力に基づいて、S-LLMのランク付けを可能にする。
- 参考スコア(独自算出の注目度): 8.244444633880603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SimBench, a benchmark designed to evaluate the proficiency of student large language models (S-LLMs) in generating digital twins (DTs) that can be used in simulators for virtual testing. Given a collection of S-LLMs, this benchmark enables the ranking of the S-LLMs based on their ability to produce high-quality DTs. We demonstrate this by comparing over 20 open- and closed-source S-LLMs. Using multi-turn interactions, SimBench employs a rule-based judge LLM (J-LLM) that leverages both predefined rules and human-in-the-loop guidance to assign scores for the DTs generated by the S-LLM, thus providing a consistent and expert-inspired evaluation protocol. The J-LLM is specific to a simulator, and herein the proposed benchmarking approach is demonstrated in conjunction with the Chrono multi-physics simulator. Chrono provided the backdrop used to assess an S-LLM in relation to the latter's ability to create digital twins for multibody dynamics, finite element analysis, vehicle dynamics, robotic dynamics, and sensor simulations. The proposed benchmarking principle is broadly applicable and enables the assessment of an S-LLM's ability to generate digital twins for other simulation packages. All code and data are available at https://github.com/uwsbel/SimBench.
- Abstract(参考訳): シムベンチ(SimBench)は、学生大言語モデル(S-LLM)が仮想テストのシミュレータで使用できるデジタルツイン(DT)を生成する能力を評価するために設計されたベンチマークである。
S-LLMのコレクションを与えられたこのベンチマークは、高品質なDTを生成する能力に基づいて、S-LLMのランク付けを可能にする。
我々は、20以上のオープンソースおよびクローズドソースS-LLMを比較してこれを実証する。
マルチターンインタラクションを使用して、SimBenchは、事前定義されたルールとHuman-in-the-loopガイダンスの両方を活用して、S-LLMが生成したDTのスコアを割り当てるルールベースの判断 LLM (J-LLM) を採用する。
J-LLM はシミュレータに特有であり,Chrono multi-physics シミュレータと組み合わせたベンチマーク手法が提案されている。
クロノはS-LLMの評価に使われた背景を、マルチボディダイナミクス、有限要素解析、車両ダイナミクス、ロボットダイナミクス、センサーシミュレーションのためのデジタルツインを作成する能力に関連して提供した。
提案するベンチマーク原理は広く適用可能であり,S-LLMが他のシミュレーションパッケージに対してディジタルツインを生成する能力を評価することができる。
すべてのコードとデータはhttps://github.com/uwsbel/SimBench.comで入手できる。
関連論文リスト
- Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [48.17611255751571]
ポストトレーニングは、大きな言語モデルが人間の指示に従うことを可能にするために不可欠である。
マルチエージェントシミュレーションを利用して、さまざまなテキストベースのシナリオを自動的に生成する。
本稿では,シナリオ駆動型命令生成器MATRIX-Genを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - LLM experiments with simulation: Large Language Model Multi-Agent System for Simulation Model Parametrization in Digital Twins [4.773175285216063]
本稿では,大規模言語モデル(LLM)を適用し,デジタル双生児におけるシミュレーションモデルのパラメトリゼーションを自動化する新しいフレームワークを提案する。
提案手法は,LLMの知識を取り入れたシミュレーションモデルのユーザビリティを向上させる。
このシステムは、ユーザのフレンドリさを高め、人間のユーザの認知負荷を軽減する可能性がある。
論文 参考訳(メタデータ) (2024-05-28T11:59:40Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。
本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。
その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。
会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。
そこで我々はSimpleUserSimを提案する。
論文 参考訳(メタデータ) (2024-03-25T04:21:06Z) - LibSignal: An Open Library for Traffic Signal Control [8.290016666341755]
本稿では,信号制御タスクにおける強化学習モデルのクロスシミュレータ比較のためのライブラリを提案する。
このシステムは、Urban Mobility(SUMO)やCityFlowなどの交通信号制御タスクで一般的に使用されるシミュレータをサポートする。
これらの手法が、異なるシミュレーターで同じデータセットでかなり比較されたのは、これが初めてである。
論文 参考訳(メタデータ) (2022-11-19T10:21:50Z) - Forces are not Enough: Benchmark and Critical Evaluation for Machine
Learning Force Fields with Molecular Simulations [5.138982355658199]
分子動力学(MD)シミュレーション技術は様々な自然科学応用に広く用いられている。
我々は、最先端(SOTA)ML FFモデルの集合をベンチマークし、特に、一般的にベンチマークされる力の精度が、関連するシミュレーション指標とうまく一致していないことを示す。
論文 参考訳(メタデータ) (2022-10-13T17:59:03Z) - Synthetic Data-Based Simulators for Recommender Systems: A Survey [55.60116686945561]
本調査は,モデリングとシミュレーションの分野における最近のトレンドを包括的に概観することを目的としている。
まずは、シミュレーターを実装するフレームワークの開発の背後にあるモチベーションから始めます。
我々は,既存のシミュレータの機能,近似,産業的有効性に基づいて,新しい一貫した一貫した分類を行う。
論文 参考訳(メタデータ) (2022-06-22T19:33:21Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - Using Machine Learning at Scale in HPC Simulations with SmartSim: An
Application to Ocean Climate Modeling [52.77024349608834]
We demonstrate the first climate-scale, numerical ocean Simulations improve through distributed, online inference of Deep Neural Networks (DNN) using SmartSim。
SmartSimは、従来のHPCシミュレーションのためのオンライン分析と機械学習(ML)を可能にするためのライブラリです。
論文 参考訳(メタデータ) (2021-04-13T19:27:28Z) - A User's Guide to Calibrating Robotics Simulators [54.85241102329546]
本稿では,シミュレーションで学習したモデルやポリシーを現実世界に伝達することを目的とした,様々なアルゴリズムの研究のためのベンチマークとフレームワークを提案する。
我々は、様々なアルゴリズムの性能に関する洞察を特徴付け、提供するために、広く知られたシミュレーション環境の実験を行う。
我々の分析は、この分野の実践者にとって有用であり、sim-to-realアルゴリズムの動作と主特性について、より深い選択をすることができる。
論文 参考訳(メタデータ) (2020-11-17T22:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。