Fugu-MT 論文翻訳(概要): FlakeRanker: Automated Identification and Prioritization of Flaky Job Failure Categories

論文の概要: FlakeRanker: Automated Identification and Prioritization of Flaky Job Failure Categories

arxiv url: http://arxiv.org/abs/2503.12312v1
Date: Sun, 16 Mar 2025 01:37:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:57.842606
Title: FlakeRanker: Automated Identification and Prioritization of Flaky Job Failure Categories
Title（参考訳）: FlakeRanker: 燃えるようなジョブ失敗カテゴリの自動識別と優先順位付け
Authors: Henri Aïdasso,
Abstract要約: オリジナルの論文では、開発者が遭遇する46の異なる仕事の失敗のカテゴリを特定し分析している。 RFMクラスタリングモデルを使用して、最も無駄で永続的なものを識別し、優先順位付けする。このアーティファクトは、(1)RQ1のラベル付けプロセスを自動化するために使用されるスクリプト、(2)RQ2のコストによる46のカテゴリのランク付けを含む完全な分析結果、(3)RFMデータセットとRQ4の優先順位付けのためのRAMクラスタリングモデルを作成するために使用されるスクリプトを含む。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This document presents the artifact associated with the ICSE SEIP 25 paper titled On the Diagnosis of Flaky Job Failures: Understanding and Prioritizing Failure Categories. The original paper identifies and analyzes 46 distinct categories of flaky job failures that developers encounter, using Recency (R), Frequency (F), and Monetary (M) measures. In addition, it uses an RFM clustering model to identify and prioritize the most wasteful and persistent. The original paper only discusses the rankings and evolution of the top 20 categories in the results. This artifact contains (1) the regex and scripts used to automate the labeling process for RQ1, (2) complete analysis results, including the ranking of all 46 categories by cost in RQ2 and the evolution of these categories over time in RQ3, and (3) the RFM dataset and scripts used to create the RFM clustering model for prioritization in RQ4. In addition, we engineered the labeling tool and the RFM-based prioritization methodology in a command-line interface (CLI) called FLAKERANKER to facilitate reuse and repurposing in future studies.
Abstract（参考訳）: この文書では、ICSE SEIP 25の論文"On the diagnosis of Flaky Job Failures: Understanding and Prioritizing Failure Categories"に関連付けられたアーティファクトを紹介します。元の論文では、Recency (R), Frequency (F), Monetary (M) 計を用いて、開発者が遭遇するフレキなジョブ障害の46のカテゴリを特定し、分析した。さらに、RAMクラスタリングモデルを使用して、最も無駄で永続的なものを識別し、優先順位付けします。元の論文では、結果の上位20カテゴリのランキングと進化についてのみ論じている。このアーティファクトは、(1)RQ1のラベル付けプロセスを自動化するために使用されるレジェックスとスクリプト、(2)RQ2のコストによる46のカテゴリのランキングとRQ3の時間経過によるカテゴリの進化を含む完全な分析結果、(3)RQ4の優先順位付けのためのRAMクラスタリングモデルを作成するために使用されるRAMデータセットとスクリプトを含む。さらに, FLAKERANKER と呼ばれるコマンドラインインタフェース (CLI) でラベル付けツールと RFM に基づく優先順位付け手法を設計し, 今後の研究で再利用と再資源化を容易にする。

関連論文リスト

Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning [50.27838512822097]
我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。 Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
論文参考訳（メタデータ） (2025-10-30T07:29:14Z)
Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。 TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文参考訳（メタデータ） (2025-03-08T03:14:26Z)
On the Diagnosis of Flaky Job Failures: Understanding and Prioritizing Failure Categories [2.8402080392117757]
不安定なジョブ障害は継続的デプロイメント(CD)を妨げる主要な問題のひとつです。本研究では,TELUSにおける4,511件のフレークなジョブ障害を調査し,頻度,頻度,通貨(RFM)の測定値に基づいて優先順位付けしたフレークな障害のカテゴリを特定した。
論文参考訳（メタデータ） (2025-01-09T05:15:55Z)
Enhancing IR-based Fault Localization using Large Language Models [5.032687557488094]
本稿では、プログラミングエンティティ、スタックトレース、自然言語テキストに基づいてバグレポートを分類することで、障害局所化(IRFL)を強化する。クエリの不正確性に対処するため,LLmiRQ+と呼ばれるユーザと対話型クエリ再構成手法を導入する。 6,340件のバグ報告を含む46のプロジェクトの評価では、MRRは0.6770件、MAPは0.5118件であり、7つの最先端IRFL技術を上回っている。
論文参考訳（メタデータ） (2024-12-04T22:47:51Z)
RAFT: Adapting Language Model to Domain Specific RAG [75.63623523051491]
本稿では、ドメイン内の「オープンブック」設定において、モデルが質問に答える能力を改善するためのトレーニングレシピであるRetrieval Augmented FineTuning(RAFT)を紹介する。 RAFTは、質問に答える助けとなる関連文書から、動詞の正しいシーケンスを引用することで、これを達成します。 RAFTは、PubMed、HotpotQA、Gorillaデータセット全体のモデルのパフォーマンスを一貫して改善する。
論文参考訳（メタデータ） (2024-03-15T09:26:02Z)
No Representation Rules Them All in Category Discovery [115.53747187400626]
一般化カテゴリー発見(GCD)の課題に取り組むラベル付きおよびアンラベル画像のデータセットが与えられた場合、そのタスクはすべての画像をアンラベル画像のサブセットにまとめることである。カテゴリー発見のための合成データセット「Clevr-4」を提案する。
論文参考訳（メタデータ） (2023-11-28T18:59:46Z)
APRF-Net: Attentive Pseudo-Relevance Feedback Network for Query Categorization [12.634704014206294]
クエリ分類のためのレアクエリの表現を強化するために,textbfAttentive textbfPseudo textbfRelevance textbfFeedback textbfNetwork (APRF-Net) という新しいディープニューラルネットワークを提案する。以上の結果から,APRF-Netはクエリ分類をF1@1$スコアで5.9%改善し,レアクエリでは8.2%向上した。
論文参考訳（メタデータ） (2021-04-23T02:34:08Z)
Abstractive Query Focused Summarization with Query-Free Resources [60.468323530248945]
本稿では,汎用的な要約リソースのみを利用して抽象的なqfsシステムを構築する問題を考える。本稿では,要約とクエリのための新しい統一表現からなるMasked ROUGE回帰フレームワークであるMargeを提案する。最小限の監視から学習したにもかかわらず,遠隔管理環境において最先端の結果が得られた。
論文参考訳（メタデータ） (2020-12-29T14:39:35Z)
Toward the Automatic Classification of Self-Affirmed Refactoring [22.27416971215152]
SAR(Self-Affirmed Refactoring)は、開発者がコミットメッセージでアクティビティをドキュメント化する方法について調査するために導入された。まず、コミットが開発者関連の事象を記述しているかを識別し、共通の品質改善カテゴリに従って分類する2段階のアプローチを提案する。我々のモデルは、コミットを正確に分類し、パターンベースのランダムアプローチより優れ、より関連する40のSARパターンを発見できる。
論文参考訳（メタデータ） (2020-09-19T18:35:21Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)
Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文参考訳（メタデータ） (2020-02-10T16:44:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。