論文の概要: NeuroFlake: A Neuro-Symbolic LLM Framework for Flaky Test Classification
- arxiv url: http://arxiv.org/abs/2605.11482v1
- Date: Tue, 12 May 2026 03:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.558742
- Title: NeuroFlake: A Neuro-Symbolic LLM Framework for Flaky Test Classification
- Title(参考訳): NeuroFlake: フレキテスト分類のためのニューロシンボリックLLMフレームワーク
- Authors: Khondaker Tasnia Hoque, Toukir Ahammed,
- Abstract要約: 同じバージョンのコードに対して非決定論的パス/フェイル動作を示す、不安定なテストは、信頼できる回帰テストに重大な課題を生じさせる。
我々は,現実世界のデータセット上でフレキテストの分類を行う新しいニューロ・シンボリック・フレームワークであるNeuroFlakeを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flaky tests, which exhibit non-deterministic pass/fail behavior for the same version of code, pose significant challenges to reliable regression testing. While large language models (LLMs) promise for automated flaky test classification, they often fail to comprehend the actual logic behind test flakiness, instead overfitting to superficial textual artifacts (e.g., specific variable names). This semantic fragility leads to poor generalization on real-world imbalance dataset and vulnerability to perturbations. In this paper, we introduce NeuroFlake, a novel neuro-Symbolic framework for classifying flaky tests on highly imbalanced, real-world datasets (FlakeBench). Unlike prior approaches that rely on brittle manual rule and black box learning, NeuroFlake integrates a Discriminative Token Mining (DTM) module to automate the discovery of high-fidelity, statistically significant source code tokens (e.g., specific concurrency primitives or async waits). By injecting these strong latent signals directly into LLM's attention mechanism, we bridge the gap between neural intuition and symbolic precision. Our experiments demonstrate that neuro-symbolic fusion significantly improves classification performance by leveraging classification F1-score to 69.34% while prior state-of-art shows best F1-score 65.79%. However, we rigorously evaluate NeuroFlake's robustness through adversarial stress testing, introducing semantic preserving augmentations (e.g., dead code injection, variable renaming). While baseline models exhibit performance degradation of 8-18 percentage points (pp) on perturbed tests, NeuroFlake maintains performance stability on unseen augmentations dropping only 4-7 pp.
- Abstract(参考訳): 同じバージョンのコードに対して非決定論的パス/フェイル動作を示す、不安定なテストは、信頼できる回帰テストに重大な課題を生じさせる。
大きな言語モデル(LLM)は自動フレキテスト分類を約束するが、テストのフレキネスの背後にある実際のロジックを理解せず、表面的なテキストアーティファクト(特定の変数名など)に過度に適合することが多い。
このセマンティックな脆弱性は、現実世界の不均衡データセットと摂動に対する脆弱性の一般化に繋がる。
本稿では,高度に不均衡な実世界のデータセット(FlakeBench)上でのフレキなテストの分類を行う新しいニューロ・シンボリック・フレームワークであるNeuroFlakeを紹介する。
不安定な手動ルールやブラックボックス学習に依存する従来のアプローチとは異なり、NeuroFlakeはDTMモジュールを統合して、高忠実で統計的に重要なソースコードトークン(特定の並行プリミティブや非同期ウェイトなど)の発見を自動化する。
これらの強い潜伏信号をLSMの注意機構に直接注入することにより、神経直観とシンボル精度のギャップを埋める。
実験により,F1スコアを69.34%に高め,F1スコアを65.79%に向上させることで,ニューロシンボリックフュージョンは分類性能を著しく向上させることが示された。
しかし,NuroFlakeの強靭性は,対向ストレステストや意味的保存強化(デッドコードインジェクション,変数リネーミングなど)の導入を通じて,厳密に評価する。
ベースラインモデルは摂動試験で8-18ポイント (pp) の性能低下を示したが,NeuroFlake は目に見えない増悪では4-7pp しか低下しない。
関連論文リスト
- NeuroClaw Technical Report [54.14941057366186]
NeuroClawは、神経イメージング研究のためのドメイン特化マルチエージェント研究アシスタントである。
NeuroClawは、フォーマットとモダリティをまたいだ生のニューロイメージングデータを直接運用する。
3階層のスキル/エージェント階層は、ユーザとのインタラクション、高レベルのオーケストレーション、低レベルのツールスキルを分離する。
論文 参考訳(メタデータ) (2026-04-27T16:57:14Z) - Identifying and Transferring Reasoning-Critical Neurons: Improving LLM Inference Reliability via Activation Steering [50.63386303357225]
本稿では,ニューロンの活性化に選択的に介入することで推論信頼性を向上させる軽量なテストタイムフレームワークであるAdaRASを提案する。
AdaRASは、極性を意識した平均差基準を介してReasoning-Critical Neurons(RCN)を特定し、推論中にアクティベーションを適応的に制御する。
10の数学およびコーディングベンチマークの実験では、AIME-24とAIME-25の13%以上のゲインを含む一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-27T17:53:01Z) - A Few Bad Neurons: Isolating and Surgically Correcting Sycophancy [7.405817106579332]
大規模言語モデルの振る舞いアライメントは、広範囲の微調整によって達成されることが多い。
本研究では,特定の行動に最も責任があるニューロンのみを特定し,更新するアライメント手法を提案する。
以上の結果から,スパークでニューロンレベルの更新は,フルモデルファインチューニングに代わる,スケーラブルで高精度な代替手段であることがわかった。
論文 参考訳(メタデータ) (2026-01-26T20:20:13Z) - Generalization Gaps in Political Fake News Detection: An Empirical Study on the LIAR Dataset [0.764671395172401]
LIARベンチマークを用いて,9つの機械学習アルゴリズムの診断評価を行った。
モデルの重み付きF1スコアを超えないきめ細かい分類の「パフォーマンスシーリング」を発見した。
木に基づくアンサンブルの大規模な"一般化ギャップ"は、99%以上のトレーニング精度を達成したが、テストデータで約25%に崩壊した。
論文 参考訳(メタデータ) (2025-12-20T23:08:18Z) - Game-Theoretic Gradient Control for Robust Neural Network Training [0.0]
フィードフォワードニューラルネットワーク(FFNN)は入力ノイズに弱いため、予測性能が低下する。
本研究の目的は,バックプロパゲーションを改良し,マルチエージェントゲームとして解釈し,制御対象変数の雑音化を探索することにより,FFNN雑音の頑健性を高めることである。
論文 参考訳(メタデータ) (2025-07-25T10:26:25Z) - Continuous time recurrent neural networks: overview and application to
forecasting blood glucose in the intensive care unit [56.801856519460465]
連続時間自己回帰リカレントニューラルネットワーク(Continuous Time Autoregressive Recurrent Neural Network, CTRNN)は、不規則な観測を考慮に入れたディープラーニングモデルである。
重篤なケア環境下での血糖値の確率予測へのこれらのモデルの適用を実証する。
論文 参考訳(メタデータ) (2023-04-14T09:39:06Z) - Can pruning improve certified robustness of neural networks? [106.03070538582222]
ニューラルネット・プルーニングはディープ・ニューラル・ネットワーク(NN)の実証的ロバスト性を向上させることができることを示す。
実験の結果,NNを適切に刈り取ることで,その精度を8.2%まで向上させることができることがわかった。
さらに,認証された宝くじの存在が,従来の密集モデルの標準および認証された堅牢な精度に一致することを観察する。
論文 参考訳(メタデータ) (2022-06-15T05:48:51Z) - Neurochaos Feature Transformation and Classification for Imbalanced
Learning [0.0]
制限付きと不均衡なデータから学ぶことは、人工知能コミュニティでは難しい問題だ。
ヒト脳におけるカオス性神経細胞の発火に触発され、ニューロカオス学習(NL)と呼ばれる新しい学習アルゴリズムが最近提案された。
本稿では,ニューロカオスに基づく特徴変換と従来のMLアルゴリズムを用いた抽出のユニークな組み合わせを提案する。
論文 参考訳(メタデータ) (2022-04-20T16:11:45Z) - Improving Adversarial Transferability via Neuron Attribution-Based
Attacks [35.02147088207232]
本稿では,より正確なニューロン重要度推定を行う機能レベルアタック(NAA)を提案する。
我々は、オーバーヘッドを大幅に減らすために、ニューロンの属性の近似スキームを導出する。
実験により、最先端のベンチマークに対する我々のアプローチの優位性が確認された。
論文 参考訳(メタデータ) (2022-03-31T13:47:30Z) - Artificial Neural Variability for Deep Learning: On Overfitting, Noise
Memorization, and Catastrophic Forgetting [135.0863818867184]
人工ニューラルネットワーク(ANV)は、ニューラルネットワークが自然のニューラルネットワークからいくつかの利点を学ぶのに役立つ。
ANVは、トレーニングデータと学習モデルの間の相互情報の暗黙の正則化として機能する。
過度にフィットし、ノイズの記憶をラベル付けし、無視できるコストで破滅的な忘れを効果的に軽減することができる。
論文 参考訳(メタデータ) (2020-11-12T06:06:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。