論文の概要: TD-Suite: All Batteries Included Framework for Technical Debt Classification
- arxiv url: http://arxiv.org/abs/2504.11085v1
- Date: Tue, 15 Apr 2025 11:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:12:05.791433
- Title: TD-Suite: All Batteries Included Framework for Technical Debt Classification
- Title(参考訳): TD-Suite:すべての電池の技術的負債分類フレームワーク
- Authors: Karthik Shivashankar, Antonio Martini,
- Abstract要約: TD-Suiteはシームレスなエンドツーエンドパイプラインを提供し、初期データ取り込みからモデルトレーニングに至るまで、あらゆるものを管理する。
生成されたモデルが堅牢であることを保証するため、TD-Suiteは重要なトレーニング方法論を取り入れている。
このフレームワークは、計算集約的なモデルトレーニングプロセスに関連する二酸化炭素排出量の追跡と報告を統合する。
- 参考スコア(独自算出の注目度): 5.669063174637433
- License:
- Abstract: Recognizing that technical debt is a persistent and significant challenge requiring sophisticated management tools, TD-Suite offers a comprehensive software framework specifically engineered to automate the complex task of its classification within software projects. It leverages the advanced natural language understanding of state-of-the-art transformer models to analyze textual artifacts, such as developer discussions in issue reports, where subtle indicators of debt often lie hidden. TD-Suite provides a seamless end-to-end pipeline, managing everything from initial data ingestion and rigorous preprocessing to model training, thorough evaluation, and final inference. This allows it to support both straightforward binary classification (debt or no debt) and more valuable, identifying specific categories like code, design, or documentation debt, thus enabling more targeted management strategies. To ensure the generated models are robust and perform reliably on real-world, often imbalanced, datasets, TD-Suite incorporates critical training methodologies: k-fold cross-validation assesses generalization capability, early stopping mechanisms prevent overfitting to the training data, and class weighting strategies effectively address skewed data distributions. Beyond core functionality, and acknowledging the growing importance of sustainability, the framework integrates tracking and reporting of carbon emissions associated with the computationally intensive model training process. It also features a user-friendly Gradio web interface in a Docker container setup, simplifying model interaction, evaluation, and inference.
- Abstract(参考訳): TD-Suiteは、技術的負債が高度な管理ツールを必要とする永続的で重要な課題であることを認識し、ソフトウェアプロジェクトにおけるその分類の複雑なタスクを自動化するために特別に設計された包括的なソフトウェアフレームワークを提供する。
これは、最先端のトランスフォーマーモデルの先進的な自然言語理解を活用して、問題レポートの開発者ディスカッションのようなテキストアーティファクトを分析し、負債の微妙な指標が隠されていることが多い。
TD-Suiteはシームレスなエンドツーエンドパイプラインを提供し、初期データ取り込みや厳格な前処理からモデルトレーニング、徹底的な評価、最終的な推論に至るまで、すべてを管理する。
これにより、単純なバイナリ分類(負債や負債なし)と、コードや設計、ドキュメントの負債といった特定のカテゴリを識別して、よりターゲットを絞った管理戦略の両方をサポートすることができる。
k倍のクロスバリデーションは一般化能力を評価し、早期停止メカニズムはトレーニングデータへの過度な適合を防ぎ、クラス重み付け戦略は歪んだデータ分布に効果的に対処する。
コア機能を超えて、持続可能性の重要性が増していることを認識し、このフレームワークは計算集約的なモデルトレーニングプロセスに関連する二酸化炭素排出量の追跡と報告を統合する。
また、DockerコンテナのセットアップでユーザフレンドリなGradio Webインターフェースを備え、モデルのインタラクション、評価、推論を簡単にする。
関連論文リスト
- Towards Human-Guided, Data-Centric LLM Co-Pilots [53.35493881390917]
CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。
高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。
CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
論文 参考訳(メタデータ) (2025-01-17T17:51:22Z) - Dynamic Feature Fusion: Combining Global Graph Structures and Local Semantics for Blockchain Fraud Detection [0.7510165488300369]
本稿では,グラフに基づく表現学習と意味的特徴抽出を組み合わせた動的特徴融合モデルを提案する。
我々は,グラフ構築,時間的特徴強調,テキスト前処理を含む包括的データ処理パイプラインを開発する。
大規模な実世界のブロックチェーンデータセットの実験結果は、我々の手法が既存のベンチマークを精度、F1スコア、リコールメトリクスで上回っていることを示している。
論文 参考訳(メタデータ) (2025-01-03T09:04:43Z) - Identifying Technical Debt and Its Types Across Diverse Software Projects Issues [4.6173290119212265]
ソフトウェアプロジェクトの課題における技術的負債(TD)の識別は、コード品質の維持、長期的なメンテナンスコストの削減、プロジェクト全体の健全性の向上に不可欠である。
本研究は,大規模ソフトウェア開発において,高精度かつ効率的なTD識別の必要性に対処するため,トランスフォーマーモデルを用いたTD分類を進歩させる。
論文 参考訳(メタデータ) (2024-08-17T07:46:54Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Dyna-bAbI: unlocking bAbI's potential with dynamic synthetic
benchmarking [16.109330335379962]
Dyna-bAbIは動的フレームワークであり、bAbIのタスク生成を細かく制御する。
構成一般化を必要とする3つの新しいタスクを構築することで、私たちのアイデアを実証する。
論文 参考訳(メタデータ) (2021-11-30T20:36:56Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - Decentralized Federated Learning Preserves Model and Data Privacy [77.454688257702]
我々は、訓練されたモデル間で知識を共有することができる、完全に分散化されたアプローチを提案する。
生徒は、合成された入力データを通じて教師の出力を訓練する。
その結果,教師が学習した未学習学生モデルが,教師と同等のF1スコアに達することがわかった。
論文 参考訳(メタデータ) (2021-02-01T14:38:54Z) - Federated Self-Supervised Learning of Multi-Sensor Representations for
Embedded Intelligence [8.110949636804772]
スマートフォン、ウェアラブル、IoT(Internet of Things)デバイスは、教師付きモデルを学習するための集中リポジトリに蓄積できない豊富なデータを生成する。
本稿では,ウェーブレット変換に基づくテキストカルグラム・信号対応学習という自己教師付きアプローチを提案し,ラベルなしセンサ入力から有用な表現を学習する。
さまざまなパブリックデータセットのマルチビュー戦略を用いて,学習機能の品質を広範囲に評価し,すべての領域で高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-07-25T21:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。