Fugu-MT 論文翻訳(概要): A Preliminary Study of Fixed Flaky Tests in Rust Projects on GitHub

論文の概要: A Preliminary Study of Fixed Flaky Tests in Rust Projects on GitHub

arxiv url: http://arxiv.org/abs/2502.02760v1
Date: Tue, 04 Feb 2025 22:55:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-06 16:28:50.888683
Title: A Preliminary Study of Fixed Flaky Tests in Rust Projects on GitHub
Title（参考訳）: GitHub上のRustプロジェクトにおける固定されたフレークテストに関する予備的研究
Authors: Tom Schroeder, Minh Phan, Yang Chen,
Abstract要約: GitHub上のRustプロジェクトでは、不安定なテストの研究が進行中です。修正は根本原因、マニフェストの特徴、修正戦略に関する貴重な情報を提供することができるので、報告されただけでなく、修正される不安定なテストに重点を置いています。
参考スコア（独自算出の注目度）: 5.806051501952938
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prior research has extensively studied flaky tests in various domains, such as web applications, mobile applications, and other open-source projects in a range of multiple programing languages, including Java, Javascript, Python, Ruby, and more. However, little attention has been given to flaky tests in Rust -- an emerging popular language known for its safety features relative to C/C++. Rust incorporates interesting features that make it easy to detect some flaky tests, e.g., the Rust standard randomizes the order of elements in hash tables, effectively exposing implementation-dependent flakiness. However, Rust still has several sources of nondeterminism that can lead to flaky tests. We present our work-in-progress on studying flaky tests in Rust projects on GitHub. Searching through the closed Github issues and pull requests. We focus on flaky tests that are fixed, not just reported, as the fixes can offer valuable information on root causes, manifestation characteristics, and strategies of fixes. By far, we have inspected 53 tests. Our initial findings indicate that the predominant root causes include asynchronous wait (33.9%), concurrency issues (24.5%), logic errors (9.4%). and network-related problems (9.4%).
Abstract（参考訳）: 以前の調査では、Webアプリケーション、モバイルアプリケーション、その他のオープンソースプロジェクトなど、さまざまな領域で、Java、Javascript、Python、Rubyなど、さまざまなプログラム言語で不安定なテストを研究してきた。しかし、Rustの不安定なテストには、ほとんど注意が払われていない。 Rustには、いくつかの不安定なテストを簡単に検出できる興味深い機能が含まれている。例えば、Rust標準では、ハッシュテーブル内の要素の順序をランダム化して、実装依存のフレキネスを効果的に公開している。しかしながら、Rustには、不安定なテストにつながる可能性のある、いくつかの非決定性ソースがある。 GitHub上のRustプロジェクトでは、不安定なテストの研究が進行中です。クローズドなGithubイシューとプルリクエストを検索する。修正は根本原因、マニフェストの特徴、修正戦略に関する貴重な情報を提供することができるので、報告されただけでなく、修正される不安定なテストに重点を置いています。これまでに53のテストを検査しました。最初の調査では、主な原因は非同期待ち時間(33.9%)、並行処理の問題(24.5%)、論理エラー(9.4%)である。およびネットワーク関連の問題(9.4%)。

関連論文リスト

CRUST-Bench: A Comprehensive Benchmark for C-to-safe-Rust Transpilation [63.23120252801889]
CRUST-Benchは100のCリポジトリのデータセットで、それぞれが安全なRustとテストケースで手書きのインターフェースとペアリングされている。我々は、このタスクで最先端の大規模言語モデル(LLM)を評価し、安全で慣用的なRust生成が依然として難しい問題であることを確認した。最高のパフォーマンスモデルであるOpenAI o1は、ワンショット設定で15タスクしか解決できない。
論文参考訳（メタデータ） (2025-04-21T17:33:33Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文参考訳（メタデータ） (2024-10-29T12:21:23Z)
A Study of Undefined Behavior Across Foreign Function Boundaries in Rust Libraries [2.359557447960552]
Rustは、他の言語との相互運用に頻繁に使用される。 Miriは、これらのモデルに対してアプリケーションを検証できる唯一の動的解析ツールである。 Miriは外部機能をサポートしておらず、Rustエコシステムに重大な正当性ギャップがあることを示唆している。
論文参考訳（メタデータ） (2024-04-17T18:12:05Z)
JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。 JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文参考訳（メタデータ） (2024-03-28T02:44:02Z)
Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。 TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文参考訳（メタデータ） (2024-02-09T00:34:39Z)
Taming Timeout Flakiness: An Empirical Study of SAP HANA [47.29324864511411]
不安定なテストは回帰テストに悪影響を及ぼします。テストタイムアウトは、このような不安定なテストの失敗に寄与する要因のひとつです。テストのフレキネス率は、繰り返しテストの実行回数によって49%から70%の範囲である。
論文参考訳（メタデータ） (2024-02-07T20:01:41Z)
Do Automatic Test Generation Tools Generate Flaky Tests? [12.813573907094074]
テスト生成ツールが生成するフレキなテストの頻度と性質はほとんど不明である。 EvoSuite(Java)とPynguin(Python)を使ってテストを生成し、各テストは200回実行します。この結果から, フレキネスは開発者の手書きテストと同様, 生成テストでも一般的であることが判明した。
論文参考訳（メタデータ） (2023-10-08T16:44:27Z)
Fixing Rust Compilation Errors using LLMs [2.1781086368581932]
Rustプログラミング言語は、C/C++のような従来の安全でない代替言語よりも、低レベルのシステムプログラミング言語に実行可能な選択肢として、自らを確立している。本稿では,Large Language Models(LLMs)の創発的機能を活用し,Rustコンパイルエラーの修正を自動的に提案するRustAssistantというツールを提案する。 RustAssistantは、人気のあるオープンソースRustリポジトリの実際のコンパイルエラーに対して、約74%の驚くべきピーク精度を達成することができる。
論文参考訳（メタデータ） (2023-08-09T18:30:27Z)
AutoCoreset: An Automatic Practical Coreset Construction Framework [65.37876706107764]
コアセットは入力セットの小さな重み付き部分集合であり、損失関数によく似ている。本稿では,ユーザからの入力データと所望のコスト関数のみを必要とするコアセット構築のための自動フレームワークを提案する。この集合は有限であるが、コア集合は極めて一般であることを示す。
論文参考訳（メタデータ） (2023-05-19T19:59:52Z)
DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and Code Skeletons [5.564793925574796]
本稿では,大規模な事前学習型トランスを用いた自動デバッグ手法を提案する。まず、合成バグを生成するために、逆コミットデータにバグ生成モデルをトレーニングすることから始めます。次に、テストを実行できる10Kリポジトリに焦点を当て、テストをパスすることでカバーされるすべての関数のバグの多いバージョンを作成します。
論文参考訳（メタデータ） (2021-05-19T18:40:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。