論文の概要: Stack Trace-Based Crash Deduplication with Transformer Adaptation
- arxiv url: http://arxiv.org/abs/2508.19449v1
- Date: Tue, 26 Aug 2025 21:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.433572
- Title: Stack Trace-Based Crash Deduplication with Transformer Adaptation
- Title(参考訳): 変圧器適応によるスタックトレースに基づくクラッシュ重複
- Authors: Md Afif Al Mamun, Gias Uddin, Lan Xia, Longyu Zhang,
- Abstract要約: 自動クラッシュ報告システムは大量の重複レポートを生成する。
スタックトレースに基づく従来の重複解法は、スタックトレース内のコンテキスト的および構造的関係を捉えるのに失敗する。
DedupTは、スタックを独立したフレームとしてではなく、階層的にトレースするトランスフォーマーベースのアプローチである。
- 参考スコア(独自算出の注目度): 2.846561253333858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated crash reporting systems generate large volumes of duplicate reports, overwhelming issue-tracking systems and increasing developer workload. Traditional stack trace-based deduplication methods, relying on string similarity, rule-based heuristics, or deep learning (DL) models, often fail to capture the contextual and structural relationships within stack traces. We propose dedupT, a transformer-based approach that models stack traces holistically rather than as isolated frames. dedupT first adapts a pretrained language model (PLM) to stack traces, then uses its embeddings to train a fully-connected network (FCN) to rank duplicate crashes effectively. Extensive experiments on real-world datasets show that dedupT outperforms existing DL and traditional methods (e.g., sequence alignment and information retrieval techniques) in both duplicate ranking and unique crash detection, significantly reducing manual triage effort. On four public datasets, dedupT improves Mean Reciprocal Rank (MRR) often by over 15% compared to the best DL baseline and up to 9% over traditional methods while achieving higher Receiver Operating Characteristic Area Under the Curve (ROC-AUC) in detecting unique crash reports. Our work advances the integration of modern natural language processing (NLP) techniques into software engineering, providing an effective solution for stack trace-based crash deduplication.
- Abstract(参考訳): 自動クラッシュレポートシステムは、大量の重複レポート、圧倒的な問題追跡システム、開発者の作業量の増加を生成する。
従来のスタックトレースに基づく重複解法は、文字列の類似性、ルールベースのヒューリスティックス、あるいはディープラーニング(DL)モデルに依存しており、スタックトレース内のコンテキスト的および構造的関係を捉えるのに失敗することが多い。
DedupTは、スタックを独立したフレームとしてではなく、階層的にトレースするトランスフォーマーベースのアプローチである。
dedupTはまず、事前訓練された言語モデル(PLM)をスタックトレースに適応させ、その埋め込みを使用して完全に接続されたネットワーク(FCN)をトレーニングし、重複するクラッシュを効果的にランク付けする。
実世界のデータセットに対する大規模な実験により、dedupTは既存のDLと従来の手法(シーケンスアライメントや情報検索技術など)を重複ランキングとユニークなクラッシュ検出の両方で上回り、手作業によるトリアージの労力を大幅に削減することが示された。
4つのパブリックデータセットでは、dedupTは、最高のDLベースラインと比較して平均相反ランク(MRR)を15%以上改善し、従来の手法よりも9%以上向上し、ユニークなクラッシュレポートを検出するために、高い受信者動作特性領域(ROC-AUC)を達成する。
我々の研究は、最新の自然言語処理(NLP)技術をソフトウェア工学に統合し、スタックトレースベースのクラッシュ重複の効果的な解決策を提供する。
関連論文リスト
- TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing [64.79967583649407]
知識追跡(KT)は、学生の知識状態を監視し、質問シーケンスに対する反応をシミュレートする。
既存のKTモデルは通常、単一ステップのトレーニングパラダイムに従っており、大きなエラーの蓄積につながる。
本稿では,多段階KTタスクに着目した新しい知識追跡のための多段階学習フレームワーク(AdvKT)を提案する。
論文 参考訳(メタデータ) (2025-04-07T03:31:57Z) - Pre-train, Align, and Disentangle: Empowering Sequential Recommendation with Large Language Models [26.331324261505486]
Sequential Recommendation (SR) は、ユーザの過去のインタラクションにおけるシーケンシャルなパターンを活用して、ユーザの好みを正確に追跡することを目的としている。
大規模言語モデル(LLM)の有効性が証明されているにもかかわらず、商用レコメンデータシステムへの統合は妨げられている。
我々は,LLMを用いたSRモデルを強化するために,新しいPri-train,Align,Disentangle(PAD)フレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-05T12:17:56Z) - Self-Supervised Dual Contouring [30.9409064656302]
本稿ではニューラルデュアルコンチューリングメッシュフレームワークのための自己教師型トレーニングスキームを提案する。
生成メッシュ間の距離の整合性を促進する2つの新しい自己教師付き損失関数を用いる。
単視点再構成作業における自己監督的損失によりメッシュ性能が向上することが実証された。
論文 参考訳(メタデータ) (2024-05-28T12:44:28Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - DTAAD: Dual Tcn-Attention Networks for Anomaly Detection in Multivariate Time Series Data [0.0]
本稿では,Transformer と Dual Temporal Convolutional Network (TCN) に基づく異常検出・診断モデル DTAAD を提案する。
予測精度の向上と相関性の向上のために,スケーリング手法とフィードバック機構を導入している。
7つの公開データセットに対する実験により、DTAADは検出および診断性能の両面で現在最先端のベースライン法の大部分を超えていることが確認された。
論文 参考訳(メタデータ) (2023-02-17T06:59:45Z) - Transfer Learning for Sequence Generation: from Single-source to
Multi-source [50.34044254589968]
そこで本研究では,2段階のファイントゥニング手法を提案する。また,MSGタスクにおいて,より優れた表現を学習するための微細エンコーダを備えた新しいMSGモデルを提案する。
提案手法は,WMT17 APE タスクと WMT14 テストセットを用いたマルチソース翻訳タスクにおいて,新たな最先端結果を実現する。
論文 参考訳(メタデータ) (2021-05-31T09:12:38Z) - TadGAN: Time Series Anomaly Detection Using Generative Adversarial
Networks [73.01104041298031]
TadGANは、GAN(Generative Adversarial Networks)上に構築された教師なしの異常検出手法である。
時系列の時間相関を捉えるために,ジェネレータと批評家のベースモデルとしてLSTMリカレントニューラルネットワークを用いる。
提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
論文 参考訳(メタデータ) (2020-09-16T15:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。