論文の概要: SimBench: A Rule-Based Multi-Turn Interaction Benchmark for Evaluating an LLM's Ability to Generate Digital Twins
- arxiv url: http://arxiv.org/abs/2408.11987v1
- Date: Wed, 21 Aug 2024 20:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 17:44:43.122173
- Title: SimBench: A Rule-Based Multi-Turn Interaction Benchmark for Evaluating an LLM's Ability to Generate Digital Twins
- Title(参考訳): SimBench: LLMのディジタルツイン生成能力を評価するためのルールベースのマルチターンインタラクションベンチマーク
- Authors: Jingquan Wang, Harry Zhang, Huzaifa Mustafa Unjhawala, Peter Negrut, Shu Wang, Khailanii Slaton, Radu Serban, Jin-Long Wu, Dan Negrut,
- Abstract要約: シムベンチ(SimBench)は、学生大言語モデル(S-LLM)のデジタルツイン(DT)生成能力を評価するためのベンチマークである。
S-LLMのコレクションを与えられたこのベンチマークは、高品質なDTを生成する能力に基づいて、S-LLMのランク付けを可能にする。
- 参考スコア(独自算出の注目度): 8.244444633880603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SimBench, a benchmark designed to evaluate the proficiency of student large language models (S-LLMs) in generating digital twins (DTs) that can be used in simulators for virtual testing. Given a collection of S-LLMs, this benchmark enables the ranking of the S-LLMs based on their ability to produce high-quality DTs. We demonstrate this by comparing over 20 open- and closed-source S-LLMs. Using multi-turn interactions, SimBench employs a rule-based judge LLM (J-LLM) that leverages both predefined rules and human-in-the-loop guidance to assign scores for the DTs generated by the S-LLM, thus providing a consistent and expert-inspired evaluation protocol. The J-LLM is specific to a simulator, and herein the proposed benchmarking approach is demonstrated in conjunction with the Chrono multi-physics simulator. Chrono provided the backdrop used to assess an S-LLM in relation to the latter's ability to create digital twins for multibody dynamics, finite element analysis, vehicle dynamics, robotic dynamics, and sensor simulations. The proposed benchmarking principle is broadly applicable and enables the assessment of an S-LLM's ability to generate digital twins for other simulation packages. All code and data are available at https://github.com/uwsbel/SimBench.
- Abstract(参考訳): シムベンチ(SimBench)は、学生大言語モデル(S-LLM)が仮想テストのシミュレータで使用できるデジタルツイン(DT)を生成する能力を評価するために設計されたベンチマークである。
S-LLMのコレクションを与えられたこのベンチマークは、高品質なDTを生成する能力に基づいて、S-LLMのランク付けを可能にする。
我々は、20以上のオープンソースおよびクローズドソースS-LLMを比較してこれを実証する。
マルチターンインタラクションを使用して、SimBenchは、事前定義されたルールとHuman-in-the-loopガイダンスの両方を活用して、S-LLMが生成したDTのスコアを割り当てるルールベースの判断 LLM (J-LLM) を採用する。
J-LLM はシミュレータに特有であり,Chrono multi-physics シミュレータと組み合わせたベンチマーク手法が提案されている。
クロノはS-LLMの評価に使われた背景を、マルチボディダイナミクス、有限要素解析、車両ダイナミクス、ロボットダイナミクス、センサーシミュレーションのためのデジタルツインを作成する能力に関連して提供した。
提案するベンチマーク原理は広く適用可能であり,S-LLMが他のシミュレーションパッケージに対してディジタルツインを生成する能力を評価することができる。
すべてのコードとデータはhttps://github.com/uwsbel/SimBench.comで入手できる。
関連論文リスト
- LLM-Powered User Simulator for Recommender System [29.328839982869923]
LLMを利用したユーザシミュレータを導入し、アイテムとのユーザエンゲージメントを明示的にシミュレートする。
具体的には、ユーザ嗜好の明示的なロジックを特定し、LCMを活用してアイテムの特性を分析し、ユーザ感情を抽出する。
本稿では,ユーザインタラクションシミュレーションの論理的および統計的洞察を相乗化するアンサンブルモデルを提案する。
論文 参考訳(メタデータ) (2024-12-22T12:00:04Z) - HackSynth: LLM Agent and Evaluation Framework for Autonomous Penetration Testing [0.0]
本稿では,Large Language Model (LLM) をベースとした,自律的な浸透試験が可能なエージェントであるHack Synthを紹介する。
Hack Synthをベンチマークするために、人気のあるプラットフォームであるPicoCTFとOverTheWireを利用する2つの新しいCapture The Flag(CTF)ベースのベンチマークセットを提案する。
論文 参考訳(メタデータ) (2024-12-02T18:28:18Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - LLM experiments with simulation: Large Language Model Multi-Agent System for Simulation Model Parametrization in Digital Twins [4.773175285216063]
本稿では,大規模言語モデル(LLM)を適用し,デジタル双生児におけるシミュレーションモデルのパラメトリゼーションを自動化する新しいフレームワークを提案する。
提案手法は,LLMの知識を取り入れたシミュレーションモデルのユーザビリティを向上させる。
このシステムは、ユーザのフレンドリさを高め、人間のユーザの認知負荷を軽減する可能性がある。
論文 参考訳(メタデータ) (2024-05-28T11:59:40Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。
本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。
その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。
会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。
そこで我々はSimpleUserSimを提案する。
論文 参考訳(メタデータ) (2024-03-25T04:21:06Z) - Synthetic Data-Based Simulators for Recommender Systems: A Survey [55.60116686945561]
本調査は,モデリングとシミュレーションの分野における最近のトレンドを包括的に概観することを目的としている。
まずは、シミュレーターを実装するフレームワークの開発の背後にあるモチベーションから始めます。
我々は,既存のシミュレータの機能,近似,産業的有効性に基づいて,新しい一貫した一貫した分類を行う。
論文 参考訳(メタデータ) (2022-06-22T19:33:21Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - Using Machine Learning at Scale in HPC Simulations with SmartSim: An
Application to Ocean Climate Modeling [52.77024349608834]
We demonstrate the first climate-scale, numerical ocean Simulations improve through distributed, online inference of Deep Neural Networks (DNN) using SmartSim。
SmartSimは、従来のHPCシミュレーションのためのオンライン分析と機械学習(ML)を可能にするためのライブラリです。
論文 参考訳(メタデータ) (2021-04-13T19:27:28Z) - A User's Guide to Calibrating Robotics Simulators [54.85241102329546]
本稿では,シミュレーションで学習したモデルやポリシーを現実世界に伝達することを目的とした,様々なアルゴリズムの研究のためのベンチマークとフレームワークを提案する。
我々は、様々なアルゴリズムの性能に関する洞察を特徴付け、提供するために、広く知られたシミュレーション環境の実験を行う。
我々の分析は、この分野の実践者にとって有用であり、sim-to-realアルゴリズムの動作と主特性について、より深い選択をすることができる。
論文 参考訳(メタデータ) (2020-11-17T22:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。