Fugu-MT 論文翻訳(概要): TD-Suite: All Batteries Included Framework for Technical Debt Classification

論文の概要: TD-Suite: All Batteries Included Framework for Technical Debt Classification

arxiv url: http://arxiv.org/abs/2504.11085v1
Date: Tue, 15 Apr 2025 11:31:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 03:34:34.675503
Title: TD-Suite: All Batteries Included Framework for Technical Debt Classification
Title（参考訳）: TD-Suite:すべての電池の技術的負債分類フレームワーク
Authors: Karthik Shivashankar, Antonio Martini,
Abstract要約: TD-Suiteはシームレスなエンドツーエンドパイプラインを提供し、初期データ取り込みからモデルトレーニングに至るまで、あらゆるものを管理する。生成されたモデルが堅牢であることを保証するため、TD-Suiteは重要なトレーニング方法論を取り入れている。このフレームワークは、計算集約的なモデルトレーニングプロセスに関連する二酸化炭素排出量の追跡と報告を統合する。
参考スコア（独自算出の注目度）: 5.669063174637433
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recognizing that technical debt is a persistent and significant challenge requiring sophisticated management tools, TD-Suite offers a comprehensive software framework specifically engineered to automate the complex task of its classification within software projects. It leverages the advanced natural language understanding of state-of-the-art transformer models to analyze textual artifacts, such as developer discussions in issue reports, where subtle indicators of debt often lie hidden. TD-Suite provides a seamless end-to-end pipeline, managing everything from initial data ingestion and rigorous preprocessing to model training, thorough evaluation, and final inference. This allows it to support both straightforward binary classification (debt or no debt) and more valuable, identifying specific categories like code, design, or documentation debt, thus enabling more targeted management strategies. To ensure the generated models are robust and perform reliably on real-world, often imbalanced, datasets, TD-Suite incorporates critical training methodologies: k-fold cross-validation assesses generalization capability, early stopping mechanisms prevent overfitting to the training data, and class weighting strategies effectively address skewed data distributions. Beyond core functionality, and acknowledging the growing importance of sustainability, the framework integrates tracking and reporting of carbon emissions associated with the computationally intensive model training process. It also features a user-friendly Gradio web interface in a Docker container setup, simplifying model interaction, evaluation, and inference.
Abstract（参考訳）: TD-Suiteは、技術的負債が高度な管理ツールを必要とする永続的で重要な課題であることを認識し、ソフトウェアプロジェクトにおけるその分類の複雑なタスクを自動化するために特別に設計された包括的なソフトウェアフレームワークを提供する。これは、最先端のトランスフォーマーモデルの先進的な自然言語理解を活用して、問題レポートの開発者ディスカッションのようなテキストアーティファクトを分析し、負債の微妙な指標が隠されていることが多い。 TD-Suiteはシームレスなエンドツーエンドパイプラインを提供し、初期データ取り込みや厳格な前処理からモデルトレーニング、徹底的な評価、最終的な推論に至るまで、すべてを管理する。これにより、単純なバイナリ分類(負債や負債なし)と、コードや設計、ドキュメントの負債といった特定のカテゴリを識別して、よりターゲットを絞った管理戦略の両方をサポートすることができる。 k倍のクロスバリデーションは一般化能力を評価し、早期停止メカニズムはトレーニングデータへの過度な適合を防ぎ、クラス重み付け戦略は歪んだデータ分布に効果的に対処する。コア機能を超えて、持続可能性の重要性が増していることを認識し、このフレームワークは計算集約的なモデルトレーニングプロセスに関連する二酸化炭素排出量の追跡と報告を統合する。また、DockerコンテナのセットアップでユーザフレンドリなGradio Webインターフェースを備え、モデルのインタラクション、評価、推論を簡単にする。

関連論文リスト

LOGIGEN: Logic-Driven Generation of Verifiable Agentic Tasks [4.6880826836662814]
検証可能なトレーニングデータを合成するロジック駆動フレームワークである textbfLOGIGEN を紹介する。 2$-Benchでは、LOGIGEN-32B(RL)がtextbf79.5%の成功率を獲得し、ベースモデルを大幅に上回っている。
論文参考訳（メタデータ） (2026-02-28T08:35:30Z)
Steering LLMs via Scalable Interactive Oversight [74.12746881843044]
大規模な言語モデルは、エンフェーブコーディングのような複雑で長期にわたるタスクをますます自動化し、監督のギャップが生まれています。スケーラブルな監視において重要な課題は、人間が責任を持ってAIシステムを、特定または検証する能力を超えたタスクで操ることができることだ。
論文参考訳（メタデータ） (2026-02-04T04:52:00Z)
Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey [59.3507264893654]
課題解決は、現実世界の開発に不可欠な複雑なソフトウェアエンジニアリングタスクです。 SWE-benchのようなベンチマークでは、このタスクは大規模言語モデルでは極めて困難であることが判明した。本稿では,この新興領域を体系的に調査する。
論文参考訳（メタデータ） (2026-01-15T18:55:03Z)
Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems [75.78934957242403]
自動運転車とドローンは、マルチモーダル搭載センサーデータから真の空間情報を必要とする。本稿では,この目標に向かって進む中核的な技術群を同定し,マルチモーダル・プレトレーニングのためのフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-30T17:58:01Z)
Context-Aware Visual Prompting: Automating Geospatial Web Dashboards with Large Language Models and Agent Self-Validation for Decision Support [1.506501956463029]
リスク分析と意思決定のためのWebベースのダッシュボードの開発は、大きな多次元データの難しさに悩まされることが多い。ユーザ定義入力からインタラクティブな地理空間ダッシュボードの作成を自動化する生成AIフレームワークを導入する。
論文参考訳（メタデータ） (2025-10-10T10:58:15Z)
Federated Graph Unlearning [23.00839112398916]
データプライバシの要求は、Federated Graph Learningのようなフレームワークの開発につながっている。提案するフレームワークでは,特定の未学習要求に合わせた分岐戦略を採用している。このフレームワークは、クライアントとメタアンラーニングの両方のシナリオで、モデルの予測精度を大幅に改善する。
論文参考訳（メタデータ） (2025-08-04T14:57:03Z)
Towards Efficient and Effective Alignment of Large Language Models [7.853945494882636]
大規模言語モデル(LLM)は多様なタスクにまたがる優れた能力を示すが、それらを効率的かつ効果的に人間の期待に合わせることは重要な課題である。この論文は、データ収集、トレーニング、評価において新しい方法論を導入することで、LCMアライメントを推し進める。
論文参考訳（メタデータ） (2025-06-11T02:08:52Z)
The Achilles Heel of AI: Fundamentals of Risk-Aware Training Data for High-Consequence Models [0.0]
高頻度ドメインのAIシステムは、厳密なリソース制約の下で運用しながら、稀で高インパクトなイベントを検出する必要がある。ラベルのボリュームを情報的価値よりも優先する従来のアノテーション戦略は冗長性とノイズをもたらす。本稿では、ラベルの多様性、モデル誘導選択、限界ユーティリティベースの停止を強調するトレーニングデータ戦略であるスマートサイズについて紹介する。
論文参考訳（メタデータ） (2025-05-20T22:57:35Z)
AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing [64.79967583649407]
知識追跡(KT)は、学生の知識状態を監視し、質問シーケンスに対する反応をシミュレートする。既存のKTモデルは通常、単一ステップのトレーニングパラダイムに従っており、大きなエラーの蓄積につながる。本稿では,多段階KTタスクに着目した新しい知識追跡のための多段階学習フレームワーク(AdvKT)を提案する。
論文参考訳（メタデータ） (2025-04-07T03:31:57Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Towards Automatic Continual Learning: A Self-Adaptive Framework for Continual Instruction Tuning [8.95038939248447]
連続的な命令チューニングにより、大きな言語モデルは、過去の知識を維持しながら漸進的に学習することができる。我々のフレームワークは受信したデータを動的にフィルタリングし、連続した更新間で冗長なデータを識別し、削減する。計算コストを66.7%削減し、モデル性能を改善し、自律的な更新を実現した。
論文参考訳（メタデータ） (2025-03-20T08:00:41Z)
Towards Human-Guided, Data-Centric LLM Co-Pilots [53.35493881390917]
CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。 CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
論文参考訳（メタデータ） (2025-01-17T17:51:22Z)
Dynamic Feature Fusion: Combining Global Graph Structures and Local Semantics for Blockchain Fraud Detection [0.7510165488300369]
本稿では,グラフに基づく表現学習と意味的特徴抽出を組み合わせた動的特徴融合モデルを提案する。我々は,グラフ構築,時間的特徴強調,テキスト前処理を含む包括的データ処理パイプラインを開発する。大規模な実世界のブロックチェーンデータセットの実験結果は、我々の手法が既存のベンチマークを精度、F1スコア、リコールメトリクスで上回っていることを示している。
論文参考訳（メタデータ） (2025-01-03T09:04:43Z)
Large Language Models as Realistic Microservice Trace Generators [54.85489678342595]
ワークロードトレースは、複雑なコンピュータシステムの振る舞いを理解し、処理とメモリリソースを管理するために不可欠である。本稿では,大規模言語モデルを用いて合成ワークロードトレースを生成する手法を提案する。我々のモデルは、キートレースの特徴を予測したり、欠落したデータを埋め込んだりといった、下流のトレース関連タスクに適応する。
論文参考訳（メタデータ） (2024-12-16T12:48:04Z)
Identifying Technical Debt and Its Types Across Diverse Software Projects Issues [4.6173290119212265]
ソフトウェアプロジェクトの課題における技術的負債(TD)の識別は、コード品質の維持、長期的なメンテナンスコストの削減、プロジェクト全体の健全性の向上に不可欠である。本研究は,大規模ソフトウェア開発において,高精度かつ効率的なTD識別の必要性に対処するため,トランスフォーマーモデルを用いたTD分類を進歩させる。
論文参考訳（メタデータ） (2024-08-17T07:46:54Z)
CTP: Towards Vision-Language Continual Pretraining via Compatible Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。 VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文参考訳（メタデータ） (2023-08-14T13:53:18Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
Dyna-bAbI: unlocking bAbI's potential with dynamic synthetic benchmarking [16.109330335379962]
Dyna-bAbIは動的フレームワークであり、bAbIのタスク生成を細かく制御する。構成一般化を必要とする3つの新しいタスクを構築することで、私たちのアイデアを実証する。
論文参考訳（メタデータ） (2021-11-30T20:36:56Z)
Federated Self-Supervised Learning of Multi-Sensor Representations for Embedded Intelligence [8.110949636804772]
スマートフォン、ウェアラブル、IoT(Internet of Things)デバイスは、教師付きモデルを学習するための集中リポジトリに蓄積できない豊富なデータを生成する。本稿では,ウェーブレット変換に基づくテキストカルグラム・信号対応学習という自己教師付きアプローチを提案し,ラベルなしセンサ入力から有用な表現を学習する。さまざまなパブリックデータセットのマルチビュー戦略を用いて,学習機能の品質を広範囲に評価し,すべての領域で高いパフォーマンスを実現している。
論文参考訳（メタデータ） (2020-07-25T21:59:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。