論文の概要: TD-Suite: All Batteries Included Framework for Technical Debt Classification
- arxiv url: http://arxiv.org/abs/2504.11085v1
- Date: Tue, 15 Apr 2025 11:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 03:34:34.675503
- Title: TD-Suite: All Batteries Included Framework for Technical Debt Classification
- Title(参考訳): TD-Suite:すべての電池の技術的負債分類フレームワーク
- Authors: Karthik Shivashankar, Antonio Martini,
- Abstract要約: TD-Suiteはシームレスなエンドツーエンドパイプラインを提供し、初期データ取り込みからモデルトレーニングに至るまで、あらゆるものを管理する。
生成されたモデルが堅牢であることを保証するため、TD-Suiteは重要なトレーニング方法論を取り入れている。
このフレームワークは、計算集約的なモデルトレーニングプロセスに関連する二酸化炭素排出量の追跡と報告を統合する。
- 参考スコア(独自算出の注目度): 5.669063174637433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing that technical debt is a persistent and significant challenge requiring sophisticated management tools, TD-Suite offers a comprehensive software framework specifically engineered to automate the complex task of its classification within software projects. It leverages the advanced natural language understanding of state-of-the-art transformer models to analyze textual artifacts, such as developer discussions in issue reports, where subtle indicators of debt often lie hidden. TD-Suite provides a seamless end-to-end pipeline, managing everything from initial data ingestion and rigorous preprocessing to model training, thorough evaluation, and final inference. This allows it to support both straightforward binary classification (debt or no debt) and more valuable, identifying specific categories like code, design, or documentation debt, thus enabling more targeted management strategies. To ensure the generated models are robust and perform reliably on real-world, often imbalanced, datasets, TD-Suite incorporates critical training methodologies: k-fold cross-validation assesses generalization capability, early stopping mechanisms prevent overfitting to the training data, and class weighting strategies effectively address skewed data distributions. Beyond core functionality, and acknowledging the growing importance of sustainability, the framework integrates tracking and reporting of carbon emissions associated with the computationally intensive model training process. It also features a user-friendly Gradio web interface in a Docker container setup, simplifying model interaction, evaluation, and inference.
- Abstract(参考訳): TD-Suiteは、技術的負債が高度な管理ツールを必要とする永続的で重要な課題であることを認識し、ソフトウェアプロジェクトにおけるその分類の複雑なタスクを自動化するために特別に設計された包括的なソフトウェアフレームワークを提供する。
これは、最先端のトランスフォーマーモデルの先進的な自然言語理解を活用して、問題レポートの開発者ディスカッションのようなテキストアーティファクトを分析し、負債の微妙な指標が隠されていることが多い。
TD-Suiteはシームレスなエンドツーエンドパイプラインを提供し、初期データ取り込みや厳格な前処理からモデルトレーニング、徹底的な評価、最終的な推論に至るまで、すべてを管理する。
これにより、単純なバイナリ分類(負債や負債なし)と、コードや設計、ドキュメントの負債といった特定のカテゴリを識別して、よりターゲットを絞った管理戦略の両方をサポートすることができる。
k倍のクロスバリデーションは一般化能力を評価し、早期停止メカニズムはトレーニングデータへの過度な適合を防ぎ、クラス重み付け戦略は歪んだデータ分布に効果的に対処する。
コア機能を超えて、持続可能性の重要性が増していることを認識し、このフレームワークは計算集約的なモデルトレーニングプロセスに関連する二酸化炭素排出量の追跡と報告を統合する。
また、DockerコンテナのセットアップでユーザフレンドリなGradio Webインターフェースを備え、モデルのインタラクション、評価、推論を簡単にする。
関連論文リスト
- AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing [64.79967583649407]
知識追跡(KT)は、学生の知識状態を監視し、質問シーケンスに対する反応をシミュレートする。
既存のKTモデルは通常、単一ステップのトレーニングパラダイムに従っており、大きなエラーの蓄積につながる。
本稿では,多段階KTタスクに着目した新しい知識追跡のための多段階学習フレームワーク(AdvKT)を提案する。
論文 参考訳(メタデータ) (2025-04-07T03:31:57Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Towards Automatic Continual Learning: A Self-Adaptive Framework for Continual Instruction Tuning [8.95038939248447]
連続的な命令チューニングにより、大きな言語モデルは、過去の知識を維持しながら漸進的に学習することができる。
我々のフレームワークは受信したデータを動的にフィルタリングし、連続した更新間で冗長なデータを識別し、削減する。
計算コストを66.7%削減し、モデル性能を改善し、自律的な更新を実現した。
論文 参考訳(メタデータ) (2025-03-20T08:00:41Z) - Towards Human-Guided, Data-Centric LLM Co-Pilots [53.35493881390917]
CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。
高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。
CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
論文 参考訳(メタデータ) (2025-01-17T17:51:22Z) - Dynamic Feature Fusion: Combining Global Graph Structures and Local Semantics for Blockchain Fraud Detection [0.7510165488300369]
本稿では,グラフに基づく表現学習と意味的特徴抽出を組み合わせた動的特徴融合モデルを提案する。
我々は,グラフ構築,時間的特徴強調,テキスト前処理を含む包括的データ処理パイプラインを開発する。
大規模な実世界のブロックチェーンデータセットの実験結果は、我々の手法が既存のベンチマークを精度、F1スコア、リコールメトリクスで上回っていることを示している。
論文 参考訳(メタデータ) (2025-01-03T09:04:43Z) - Large Language Models as Realistic Microservice Trace Generators [54.85489678342595]
ワークロードトレースは、複雑なコンピュータシステムの振る舞いを理解し、処理とメモリリソースを管理するために不可欠である。
本稿では,大規模言語モデルを用いて合成ワークロードトレースを生成する手法を提案する。
我々のモデルは、キートレースの特徴を予測したり、欠落したデータを埋め込んだりといった、下流のトレース関連タスクに適応する。
論文 参考訳(メタデータ) (2024-12-16T12:48:04Z) - Identifying Technical Debt and Its Types Across Diverse Software Projects Issues [4.6173290119212265]
ソフトウェアプロジェクトの課題における技術的負債(TD)の識別は、コード品質の維持、長期的なメンテナンスコストの削減、プロジェクト全体の健全性の向上に不可欠である。
本研究は,大規模ソフトウェア開発において,高精度かつ効率的なTD識別の必要性に対処するため,トランスフォーマーモデルを用いたTD分類を進歩させる。
論文 参考訳(メタデータ) (2024-08-17T07:46:54Z) - CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Dyna-bAbI: unlocking bAbI's potential with dynamic synthetic
benchmarking [16.109330335379962]
Dyna-bAbIは動的フレームワークであり、bAbIのタスク生成を細かく制御する。
構成一般化を必要とする3つの新しいタスクを構築することで、私たちのアイデアを実証する。
論文 参考訳(メタデータ) (2021-11-30T20:36:56Z) - Federated Self-Supervised Learning of Multi-Sensor Representations for
Embedded Intelligence [8.110949636804772]
スマートフォン、ウェアラブル、IoT(Internet of Things)デバイスは、教師付きモデルを学習するための集中リポジトリに蓄積できない豊富なデータを生成する。
本稿では,ウェーブレット変換に基づくテキストカルグラム・信号対応学習という自己教師付きアプローチを提案し,ラベルなしセンサ入力から有用な表現を学習する。
さまざまなパブリックデータセットのマルチビュー戦略を用いて,学習機能の品質を広範囲に評価し,すべての領域で高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-07-25T21:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。