論文の概要: Are requirements really all you need? A case study of LLM-driven configuration code generation for automotive simulations
- arxiv url: http://arxiv.org/abs/2505.13263v1
- Date: Mon, 19 May 2025 15:44:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.709974
- Title: Are requirements really all you need? A case study of LLM-driven configuration code generation for automotive simulations
- Title(参考訳): 要件は本当に必要か? 自動車シミュレーションのためのLCM駆動構成コード生成のケーススタディ
- Authors: Krzysztof Lebioda, Nenad Petrovic, Fengjunjie Pan, Vahid Zolfaghari, Andre Schamschurko, Alois Knoll,
- Abstract要約: 大規模言語モデル(LLM)は多くの産業を嵐によって取り込んでいる。
現在利用可能なモデルは、自動車業界で見られるような現実世界の課題に本当に対処できるのだろうか?
本研究では、現在の最先端モデルの1つをテストに当てる。
我々は,CARLAシミュレーションのための構成コードに,自動車規格や文書から抽出した抽象的要件を翻訳する作業において,その性能を評価する。
- 参考スコア(独自算出の注目度): 3.2821049498759094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are taking many industries by storm. They possess impressive reasoning capabilities and are capable of handling complex problems, as shown by their steadily improving scores on coding and mathematical benchmarks. However, are the models currently available truly capable of addressing real-world challenges, such as those found in the automotive industry? How well can they understand high-level, abstract instructions? Can they translate these instructions directly into functional code, or do they still need help and supervision? In this work, we put one of the current state-of-the-art models to the test. We evaluate its performance in the task of translating abstract requirements, extracted from automotive standards and documents, into configuration code for CARLA simulations.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの産業を嵐によって取り込んでいる。
それらは印象的な推論能力を持ち、コーディングと数学的ベンチマークのスコアを着実に改善していることが示すように、複雑な問題を扱うことができる。
しかし、現在利用可能なモデルは、自動車業界で見られるような現実世界の課題に本当に対処できるのだろうか?
ハイレベルで抽象的な命令をどの程度理解できますか?
これらの命令を直接関数型コードに変換することができるのか、それとも、まだ助けと監督が必要ですか?
本研究では、現在の最先端モデルの1つをテストに当てる。
我々は,CARLAシミュレーションのための構成コードに,自動車規格や文書から抽出した抽象的要件を翻訳する作業において,その性能を評価する。
関連論文リスト
- Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。
DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。
我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文 参考訳(メタデータ) (2025-04-09T17:54:22Z) - On Simulation-Guided LLM-based Code Generation for Safe Autonomous Driving Software [0.577182115743694]
オートマチック・ドライビング・システム(Automated Driving System, ADS)は、車両の環境の解釈に責任を負う安全クリティカルなソフトウェアシステムである。
ADSの開発には厳格なプロセスが必要で、車両に配備する前にコードを検証し、検証し、評価し、検証する。
本研究では,自動コード生成と評価のためのプロトタイプを開発し,評価した。
論文 参考訳(メタデータ) (2025-04-02T21:35:11Z) - CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [24.090719826360342]
我々は、コード生成シナリオ内でタスク指向の命令に従うために、LLM(Large Language Models)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。
我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文 参考訳(メタデータ) (2025-02-26T14:19:49Z) - On the Generalizability of Transformer Models to Code Completions of Different Lengths [20.822889604867505]
大規模言語モデルが訓練中に見えない長さの入力に一般化できるかどうかは不明である。
自然言語処理(NLP)の最近の研究は、デコーダのみのLLM、すなわちxPOSとALiBiの文脈でこの問題に対処している。
本稿では、これらの特性と、本論文で提案されている他の符号化方式について、大規模な実証研究を行う。
論文 参考訳(メタデータ) (2025-01-09T08:20:42Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - CodeMind: Evaluating Large Language Models for Code Reasoning [6.819757372634151]
大規模言語モデル(LLM)は、プログラミングタスクの自動化に広く使われている。
本稿では,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。
論文 参考訳(メタデータ) (2024-02-15T02:24:46Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - HPC-Coder: Modeling Parallel Programs using Large Language Models [2.3101915391170573]
ハイパフォーマンスおよび科学的コードに特有のタスクに、いかに大きな言語モデルを適用することができるかを示す。
我々は、HPCと科学コードの新しいデータセットを導入し、それをいくつかの事前訓練されたモデルを微調整するために使用します。
本研究では,汎用モデルでは不可能なHPC関数を自動補完できることを示す。
論文 参考訳(メタデータ) (2023-06-29T19:44:55Z) - Can Machines Read Coding Manuals Yet? -- A Benchmark for Building Better
Language Models for Code Understanding [3.98345038769576]
フォーラムの投稿で、質問に対する最良の回答を予測するなどのタスクに基づいて、コード理解を評価するためのベンチマークのセットを導出します。
我々は,これらのタスクにおける現状の言語モデルの性能を評価し,微調整による各タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2021-09-15T17:42:44Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。