論文の概要: Are requirements really all you need? A case study of LLM-driven configuration code generation for automotive simulations
- arxiv url: http://arxiv.org/abs/2505.13263v1
- Date: Mon, 19 May 2025 15:44:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.709974
- Title: Are requirements really all you need? A case study of LLM-driven configuration code generation for automotive simulations
- Title(参考訳): 要件は本当に必要か? 自動車シミュレーションのためのLCM駆動構成コード生成のケーススタディ
- Authors: Krzysztof Lebioda, Nenad Petrovic, Fengjunjie Pan, Vahid Zolfaghari, Andre Schamschurko, Alois Knoll,
- Abstract要約: 大規模言語モデル(LLM)は多くの産業を嵐によって取り込んでいる。
現在利用可能なモデルは、自動車業界で見られるような現実世界の課題に本当に対処できるのだろうか?
本研究では、現在の最先端モデルの1つをテストに当てる。
我々は,CARLAシミュレーションのための構成コードに,自動車規格や文書から抽出した抽象的要件を翻訳する作業において,その性能を評価する。
- 参考スコア(独自算出の注目度): 3.2821049498759094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are taking many industries by storm. They possess impressive reasoning capabilities and are capable of handling complex problems, as shown by their steadily improving scores on coding and mathematical benchmarks. However, are the models currently available truly capable of addressing real-world challenges, such as those found in the automotive industry? How well can they understand high-level, abstract instructions? Can they translate these instructions directly into functional code, or do they still need help and supervision? In this work, we put one of the current state-of-the-art models to the test. We evaluate its performance in the task of translating abstract requirements, extracted from automotive standards and documents, into configuration code for CARLA simulations.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの産業を嵐によって取り込んでいる。
それらは印象的な推論能力を持ち、コーディングと数学的ベンチマークのスコアを着実に改善していることが示すように、複雑な問題を扱うことができる。
しかし、現在利用可能なモデルは、自動車業界で見られるような現実世界の課題に本当に対処できるのだろうか?
ハイレベルで抽象的な命令をどの程度理解できますか?
これらの命令を直接関数型コードに変換することができるのか、それとも、まだ助けと監督が必要ですか?
本研究では、現在の最先端モデルの1つをテストに当てる。
我々は,CARLAシミュレーションのための構成コードに,自動車規格や文書から抽出した抽象的要件を翻訳する作業において,その性能を評価する。
関連論文リスト
- Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。
DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。
我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文 参考訳(メタデータ) (2025-04-09T17:54:22Z) - CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [24.090719826360342]
我々は、コード生成シナリオ内でタスク指向の命令に従うために、LLM(Large Language Models)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。
我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文 参考訳(メタデータ) (2025-02-26T14:19:49Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - HPC-Coder: Modeling Parallel Programs using Large Language Models [2.3101915391170573]
ハイパフォーマンスおよび科学的コードに特有のタスクに、いかに大きな言語モデルを適用することができるかを示す。
我々は、HPCと科学コードの新しいデータセットを導入し、それをいくつかの事前訓練されたモデルを微調整するために使用します。
本研究では,汎用モデルでは不可能なHPC関数を自動補完できることを示す。
論文 参考訳(メタデータ) (2023-06-29T19:44:55Z) - Can Machines Read Coding Manuals Yet? -- A Benchmark for Building Better
Language Models for Code Understanding [3.98345038769576]
フォーラムの投稿で、質問に対する最良の回答を予測するなどのタスクに基づいて、コード理解を評価するためのベンチマークのセットを導出します。
我々は,これらのタスクにおける現状の言語モデルの性能を評価し,微調整による各タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2021-09-15T17:42:44Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。