論文の概要: GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics
- arxiv url: http://arxiv.org/abs/2503.21735v1
- Date: Thu, 27 Mar 2025 17:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:55:07.803596
- Title: GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics
- Title(参考訳): GateLens: 自動車ソフトウェアリリース分析のための推論強化LDMエージェント
- Authors: Arsham Gholamzadeh Khoee, Shuai Wang, Yinan Yu, Robert Feldt, Dhasarathy Parthasarathy,
- Abstract要約: GateLensはAlgebraベースのツールで、自動車分野のデータセットを分析する。
高いF1スコアを達成し、より堅牢な複雑で曖昧なクエリを処理する。
高い精度と信頼性を維持しながら、分析時間を80%以上削減する。
- 参考スコア(独自算出の注目度): 9.549568621873386
- License:
- Abstract: Ensuring the reliability and effectiveness of software release decisions is critical, particularly in safety-critical domains like automotive systems. Precise analysis of release validation data, often presented in tabular form, plays a pivotal role in this process. However, traditional methods that rely on manual analysis of extensive test datasets and validation metrics are prone to delays and high costs. Large Language Models (LLMs) offer a promising alternative but face challenges in analytical reasoning, contextual understanding, handling out-of-scope queries, and processing structured test data consistently; limitations that hinder their direct application in safety-critical scenarios. This paper introduces GateLens, an LLM-based tool for analyzing tabular data in the automotive domain. GateLens translates natural language queries into Relational Algebra (RA) expressions and then generates optimized Python code. It outperforms the baseline system on benchmarking datasets, achieving higher F1 scores and handling complex and ambiguous queries with greater robustness. Ablation studies confirm the critical role of the RA module, with performance dropping sharply when omitted. Industrial evaluations reveal that GateLens reduces analysis time by over 80% while maintaining high accuracy and reliability. As demonstrated by presented results, GateLens achieved high performance without relying on few-shot examples, showcasing strong generalization across various query types from diverse company roles. Insights from deploying GateLens with a partner automotive company offer practical guidance for integrating AI into critical workflows such as release validation. Results show that by automating test result analysis, GateLens enables faster, more informed, and dependable release decisions, and can thus advance software scalability and reliability in automotive systems.
- Abstract(参考訳): ソフトウェアリリース決定の信頼性と有効性を保証することは、特に自動車システムのような安全クリティカルな領域において重要である。
リリース検証データの正確な解析は、しばしば表形式で表されるが、このプロセスにおいて重要な役割を担っている。
しかしながら、広範なテストデータセットと検証メトリクスを手動で分析する従来の手法は、遅延やコストが高い傾向があります。
大規模言語モデル(LLM)は有望な代替手段を提供するが、分析的推論、文脈的理解、スコープ外クエリの処理、構造化されたテストデータの一貫した処理において課題に直面している。
本稿では,自動車分野における表データ解析ツールであるGateLensを紹介する。
GateLensは自然言語クエリをリレーショナル代数(RA)式に変換し、最適化されたPythonコードを生成する。
ベンチマークデータセットのベースラインシステムよりも優れており、より高いF1スコアを獲得し、より堅牢な複雑で曖昧なクエリを処理する。
アブレーション研究はRAモジュールの重要な役割を証明し、省略すると性能が急落した。
産業評価では、GateLensは高い精度と信頼性を維持しながら分析時間を80%以上削減している。
結果が示すように、GateLensは、いくつかの例に頼らずにハイパフォーマンスを達成し、さまざまな企業の役割からさまざまなクエリタイプにまたがる強力な一般化を示している。
GateLensをパートナーの自動車会社にデプロイする際の洞察は、AIをリリース検証のような重要なワークフローに統合するための実践的なガイダンスを提供する。
その結果、GateLensはテスト結果分析を自動化することにより、より速く、より情報があり、信頼性の高いリリース決定を可能にし、それによって、自動車システムにおけるソフトウェアのスケーラビリティと信頼性を向上できることがわかった。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Integrating Expert Knowledge into Logical Programs via LLMs [3.637365301757111]
ExKLoPは、大規模言語モデルが専門家の知識を論理的推論システムに統合する方法を評価するために設計されたフレームワークである。
この能力は特にエンジニアリングにおいて有用であり、製造業者が推奨する運用範囲などの専門家の知識を、自動化された監視システムに直接組み込むことができる。
論文 参考訳(メタデータ) (2025-02-17T19:18:23Z) - Are Large Language Models Memorizing Bug Benchmarks? [6.640077652362016]
大規模言語モデル(LLM)は、コード生成、バグ検出、修復など、様々なソフトウェアエンジニアリングタスクに不可欠なものになっている。
ソフトウェアエンジニアリングコミュニティの懸念は、ベンチマークがデータ漏洩のリスクのため、真のLLMパフォーマンスを確実に反映していないことだ。
一般的なLSMを系統的に評価し、広く使われているバグベンチマークからデータ漏洩に対する感受性を評価する。
論文 参考訳(メタデータ) (2024-11-20T13:46:04Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching [0.9208007322096533]
大きな言語モデル(LLM)は、コード翻訳のようなタスクにおいて有望であることを示している。
本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。
私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれている。
論文 参考訳(メタデータ) (2024-09-16T22:00:20Z) - Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection [9.652886240532741]
本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。
我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-08-29T10:00:57Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。
大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文 参考訳(メタデータ) (2024-01-10T16:57:24Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。