論文の概要: From Leaderboard to Deployment: Code Quality Challenges in AV Perception Repositories
- arxiv url: http://arxiv.org/abs/2603.02194v1
- Date: Mon, 02 Mar 2026 18:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.042898
- Title: From Leaderboard to Deployment: Code Quality Challenges in AV Perception Repositories
- Title(参考訳): リーダボードからデプロイメントへ - AV知覚リポジトリにおけるコード品質の課題
- Authors: Mateus Karvat, Bram Adams, Sidney Givigi,
- Abstract要約: 本研究では,KITTIとNuScenes 3D Object Detectionのリーダーボードから178種類のユニークなモデルを体系的に分析した。
調査対象となったレポジトリの7.3%が基本生産準備基準を満たしていることがわかった。
継続的インテグレーション/継続的デプロイメントパイプラインの採用は、コードメンテナンス性の向上と相関していた。
- 参考スコア(独自算出の注目度): 4.603321798937855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous vehicle (AV) perception models are typically evaluated solely on benchmark performance metrics, with limited attention to code quality, production readiness and long-term maintainability. This creates a significant gap between research excellence and real-world deployment in safety-critical systems subject to international safety standards. To address this gap, we present the first large-scale empirical study of software quality in AV perception repositories, systematically analyzing 178 unique models from the KITTI and NuScenes 3D Object Detection leaderboards. Using static analysis tools (Pylint, Bandit, and Radon), we evaluated code errors, security vulnerabilities, maintainability, and development practices. Our findings revealed that only 7.3% of the studied repositories meet basic production-readiness criteria, defined as having zero critical errors and no high-severity security vulnerabilities. Security issues are highly concentrated, with the top five issues responsible for almost 80% of occurrences, which prompted us to develop a set of actionable guidelines to prevent them. Additionally, the adoption of Continuous Integration/Continuous Deployment pipelines was correlated with better code maintainability. Our findings highlight that leaderboard performance does not reflect production readiness and that targeted interventions could substantially improve the quality and safety of AV perception code.
- Abstract(参考訳): 自律走行車(AV)知覚モデルは一般的に、コード品質、生産準備性、長期的な保守性に限定した、ベンチマークパフォーマンスメトリクスのみに基づいて評価される。
これにより、国際安全基準の対象となる安全クリティカルシステムにおける研究の卓越性と現実世界の展開との間に大きなギャップが生じる。
このギャップに対処するために,我々は,KITTIとNuScenes 3D Object Detectionのリーダーボードから178種類のユニークなモデルを体系的に解析し,AV認識リポジトリにおけるソフトウェア品質に関する大規模な実証的研究を行った。
静的解析ツール(Pylint、Bandit、Radon)を使用して、コードエラー、セキュリティ脆弱性、保守性、開発プラクティスを評価しました。
調査対象となったレポジトリの7.3%は,致命的なエラーがゼロで,重度セキュリティの脆弱性がないという,基本的なプロダクションレベル基準を満たしている。
セキュリティ問題は非常に集中しており、トップ5の問題は発生の80%近くを占めています。
さらに、継続的インテグレーション/継続的デプロイメントパイプラインの採用は、コードのメンテナンス性の向上と相関していた。
以上の結果から, リーダボードの性能は生産準備を反映せず, ターゲットとした介入は, AV知覚コードの品質と安全性を大幅に向上させる可能性が示唆された。
関連論文リスト
- SeRe: A Security-Related Code Review Dataset Aligned with Real-World Review Activities [8.215547096412346]
既存のデータセットと研究は主に汎用コードレビューコメントに焦点を当てている。
能動的学習に基づくアンサンブル分類手法を用いて構築したtextbfsecurity 関連コードレビューデータセット textbfSeRe を紹介する。
我々は373,824の生のレビューインスタンスから6,732のセキュリティ関連レビューを抽出し、複数のプログラミング言語の代表性を確保した。
論文 参考訳(メタデータ) (2026-01-03T02:39:53Z) - Quality Assurance of LLM-generated Code: Addressing Non-Functional Quality Characteristics [3.0540716731676625]
既存の研究は、生成したコードが品質に合格するかどうかではなく、テストに合格するかどうかに重点を置いている。
本研究は,108論文の体系的レビュー,複数組織の実践者による2つの業界ワークショップ,実世界のソフトウェア問題へのパッチ適用に関する実証分析の3つの相補的な調査を行った。
セキュリティとパフォーマンスの効率が学術的な注目を集めているのに対して、保守性やその他の品質が検討されていることがわかりました。
論文 参考訳(メタデータ) (2025-11-13T12:56:07Z) - Is Your Prompt Poisoning Code? Defect Induction Rates and Security Mitigation Strategies [4.435429537888066]
大規模言語モデル(LLM)は自動コード生成には不可欠だが、出力の品質とセキュリティは依然として重要な問題である。
本稿では,目標の明確性,情報の完全性,論理的整合性という3つの重要な側面を含む,迅速な品質評価フレームワークを提案する。
ユーザプロンプトの品質向上は,AI生成コードのセキュリティを強化する上で,重要かつ効果的な戦略となっている。
論文 参考訳(メタデータ) (2025-10-27T02:59:17Z) - CARE: Decoding Time Safety Alignment via Rollback and Introspection Intervention [68.95008546581339]
Contrastive Decodingのような既存のデコーディングタイムの介入は、安全と応答品質の間に深刻なトレードオフを強いることが多い。
本稿では,3つの重要なコンポーネントを統合した,復号時安全アライメントのための新しいフレームワークであるCAREを提案する。
このフレームワークは、安全性、品質、効率のバランスが良く、有害な応答率が低く、ユーザエクスペリエンスを最小限に破壊できる。
論文 参考訳(メタデータ) (2025-09-01T04:50:02Z) - A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - Beyond Easy Wins: A Text Hardness-Aware Benchmark for LLM-generated Text Detection [0.38233569758620056]
本稿では,現実的かつ公平な評価を優先する,AIテキスト検出のための新しい評価パラダイムを提案する。
我々のベンチマークであるShielDは、信頼性と安定性の両要素を統一評価基準に統合することにより、これらの制限に対処する。
制御可能な硬度パラメータを組み込んだモデル非依存型ヒューマニフィケーションフレームワークを開発した。
論文 参考訳(メタデータ) (2025-07-21T06:37:27Z) - Domain-Agnostic Scalable AI Safety Ensuring Framework [6.421238475415244]
高い性能を維持しつつ、強力な安全保証を実現するための、ドメインに依存しない最初のAI安全フレームワークを提案する。
本フレームワークは,(1) 確率制約付き最適化コンポーネント,(2) 安全性分類モデル,(3) 内部試験データ,(4) 保守的試験手順,(5) 情報的データセット品質測定,(6) 勾配勾配を有する連続近似損失関数を含む。
論文 参考訳(メタデータ) (2025-04-29T16:38:35Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Towards Trustworthy GUI Agents: A Survey [64.6445117343499]
本調査では,GUIエージェントの信頼性を5つの重要な次元で検証する。
敵攻撃に対する脆弱性、シーケンシャルな意思決定における障害モードのカスケードなど、大きな課題を特定します。
GUIエージェントが普及するにつれて、堅牢な安全基準と責任ある開発プラクティスを確立することが不可欠である。
論文 参考訳(メタデータ) (2025-03-30T13:26:00Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。