論文の概要: Industrial Code Quality Benchmarks: Toward Gamification of Software Maintainability
- arxiv url: http://arxiv.org/abs/2412.06307v1
- Date: Mon, 09 Dec 2024 08:55:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 23:11:44.289672
- Title: Industrial Code Quality Benchmarks: Toward Gamification of Software Maintainability
- Title(参考訳): 産業コード品質ベンチマーク:ソフトウェア保守性のゲーミフィケーションに向けて
- Authors: Markus Borg, Amogha Udayakumar, Adam Tornhill,
- Abstract要約: ソフトウェア業界の長期的な成功には、ソフトウェアの保守性が不可欠です。
保守性に乏しいという高いコストの証拠が広く出回っているにもかかわらず、市場圧力が多くの組織に短期的なリリースの優先順位付けを促している。
- 参考スコア(独自算出の注目度): 6.031345629422313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software maintainability is essential for long-term success in the software industry. Despite widespread evidence of the high costs associated with poor maintainability, market pressure drives many organizations to prioritize short-term releases. This focus leads to accumulating technical debt worldwide. In this preliminary work, we propose maintainability gamification through anonymous leaderboards to encourage organizations to maintain a sustained focus on code quality. Our approach envisions benchmarking to foster motivation and urgency across companies by highlighting thresholds for leaders and laggards. To initiate this concept, we analyze a sample of over 1,000 proprietary projects using CodeHealth scores. By examining the distribution of these scores across various dimensions, we assess the feasibility of creating effective leaderboards. Findings from this study offer valuable insights for future design activities in maintainability gamification.
- Abstract(参考訳): ソフトウェア業界の長期的な成功には、ソフトウェアの保守性が不可欠です。
保守性に乏しいという高いコストの証拠が広く出回っているにもかかわらず、市場圧力が多くの組織に短期的なリリースの優先順位付けを促している。
この焦点は、世界中の技術的負債の蓄積につながる。
この予備的な作業では、匿名のリーダーボードを通じて保守性のゲーミフィケーションを提案し、組織がコード品質への継続的なフォーカスを維持することを奨励する。
当社のアプローチでは,リーダとラガードのしきい値を強調することで,企業間のモチベーションと緊急性を向上するためのベンチマークを目標としています。
このコンセプトを開始するために、CodeHealthスコアを使用して1000以上のプロプライエタリなプロジェクトのサンプルを分析します。
様々な次元にまたがるスコアの分布を調べることで,効果的なリーダーボード作成の可能性を評価する。
この研究から得られた知見は、保守性ゲーミフィケーションにおける将来のデザイン活動に貴重な洞察を与える。
関連論文リスト
- Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.73714829399802]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。
i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。
この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文 参考訳(メタデータ) (2025-04-26T07:48:52Z) - DMind Benchmark: The First Comprehensive Benchmark for LLM Evaluation in the Web3 Domain [4.419596289222511]
DMind Benchmarkは、9つの主要なカテゴリにまたがる大規模言語モデル(LLM)を体系的にテストする新しいフレームワークである。
DMind Benchmarkは、ドメイン固有の主観的タスクを取り入れることで、従来の複数の選択の質問を越えている。
我々はDMind Benchmarkで15の人気のあるLCMを評価し、Web3固有の推論とアプリケーションの性能ギャップを明らかにする。
論文 参考訳(メタデータ) (2025-04-18T16:40:39Z) - Towards Trustworthy GUI Agents: A Survey [64.6445117343499]
本調査では,GUIエージェントの信頼性を5つの重要な次元で検証する。
敵攻撃に対する脆弱性、シーケンシャルな意思決定における障害モードのカスケードなど、大きな課題を特定します。
GUIエージェントが普及するにつれて、堅牢な安全基準と責任ある開発プラクティスを確立することが不可欠である。
論文 参考訳(メタデータ) (2025-03-30T13:26:00Z) - A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond [88.5807076505261]
大規模推論モデル (LRM) は, 推論中におけるチェーン・オブ・ソート (CoT) の推論長を拡大することにより, 高い性能向上を示した。
懸念が高まっているのは、過度に長い推論の痕跡を生み出す傾向にある。
この非効率性は、トレーニング、推論、現実のデプロイメントに重大な課題をもたらす。
論文 参考訳(メタデータ) (2025-03-27T15:36:30Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - How to Measure Performance in Agile Software Development? A Mixed-Method Study [2.477589198476322]
この研究は、アジャイルソフトウェア開発のパフォーマンス指標を実際に使用するときに生じる課題を特定することを目的としている。
結果として、広く使用されているパフォーマンスメトリクスが実際に広く使用されている一方で、アジャイルソフトウェア開発チームは透明性と標準化の欠如と不十分な正確性のために、課題に直面しています。
論文 参考訳(メタデータ) (2024-07-08T19:53:01Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - Clearing the Path for Software Sustainability [0.0]
本稿では,第3次研究から得られた知見をもとに,文献における重要な課題を概説する。
ソフトウェア持続可能性の定義に関する混乱、ソフトウェア開発における持続可能性を考えるべき時期に関する不確実性、評価指標とツールの欠如、ソフトウェアシステムの持続可能性に関する狭い視点、認識と教育の不足、実践における重大な考慮の欠如。
論文 参考訳(メタデータ) (2024-05-24T15:24:24Z) - Code Ownership in Open-Source AI Software Security [18.779538756226298]
コードオーナシップのメトリクスを使用して、5つの著名なオープンソースAIソフトウェアプロジェクトにおける潜在的な脆弱性との相関を調査します。
この結果は、ハイレベルなオーナシップ(マイナーなコントリビュータの数が限られている)と脆弱性の減少との間に肯定的な関係があることを示唆している。
これらの新しいコードオーナシップメトリクスによって、プロジェクトキュレーターや品質保証の専門家が現場プロジェクトを評価し、ベンチマークするのを助けるために、Pythonベースのコマンドラインアプリケーションを実装しました。
論文 参考訳(メタデータ) (2023-12-18T00:37:29Z) - A Comprehensive Study of Governance Issues in Decentralized Finance
Applications [45.033994319846244]
本稿では,DeFiアプリケーションにおけるガバナンス問題に関する総合的研究について述べる。
私たちは17のWeb3セキュリティ企業から4,446の監査レポートを収集し、構築しています。
スマートコントラクトコードとDeFiホワイトペーパーの相違は、これらのガバナンス問題において中心的な役割を果たす。
論文 参考訳(メタデータ) (2023-11-02T17:46:59Z) - Harnessing the Web and Knowledge Graphs for Automated Impact Investing
Scoring [2.4107880640624706]
持続可能な開発目標のフレームワークを作成するプロセスを自動化するための,データ駆動システムについて説明する。
本稿では,異なるWebソースからテキストのデータセットを収集・フィルタリングする新しい手法と,企業の集合に関連する知識グラフを提案する。
以上の結果から,我々の最高性能モデルでは,マイクロ平均F1スコア0.89でSDGスコアを正確に予測できることがわかった。
論文 参考訳(メタデータ) (2023-08-04T15:14:16Z) - A Weakly Supervised Learning Framework for Salient Object Detection via
Hybrid Labels [96.56299163691979]
本稿では,ハイブリッドラベル下でのSODタスクに焦点をあてる。
このタスクにおけるラベルノイズと量不均衡の問題に対処するため、我々は3つの洗練されたトレーニング戦略を持つ新しいパイプラインフレームワークを設計する。
5つのSODベンチマーク実験により,本手法は弱教師付き/非教師付き手法と競合する性能を示した。
論文 参考訳(メタデータ) (2022-09-07T06:45:39Z) - MS MARCO: Benchmarking Ranking Models in the Large-Data Regime [57.37239054770001]
本稿では,MS MARCO と TREC Deep Learning Track をケーススタディとして用いた。
評価の取り組みの設計が、特定の成果を奨励または阻止する方法を示します。
我々は、ある種の落とし穴の分析と、そのような落とし穴を避けるためのベストプラクティスのステートメントを提供する。
論文 参考訳(メタデータ) (2021-05-09T20:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。