論文の概要: From Verification to Herding: Exploiting Software's Sparsity of Influence
- arxiv url: http://arxiv.org/abs/2603.10478v1
- Date: Wed, 11 Mar 2026 07:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.819909
- Title: From Verification to Herding: Exploiting Software's Sparsity of Influence
- Title(参考訳): 検証からハーディングへ:ソフトウェアの影響の分散を爆発させる
- Authors: Tim Menzies, Kishan Kumar Ganguly,
- Abstract要約: 対象目標に向けてシステムを操るモデルフリー検索タスクとしてテストを扱う。
EZRは、32個のサンプルで90%のピークを達成し、重いソルバを光サンプリングで置き換えた。
- 参考スコア(独自算出の注目度): 4.282746516699565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software verification is now costly, taking over half the project effort while failing on modern complex systems. We hence propose a shift from verification and modeling to herding: treating testing as a model-free search task that steers systems toward target goals. This exploits the "Sparsity of Influence" -the fact that, often, large software state spaces are ruled by just a few variables, We introduce EZR (Efficient Zero-knowledge Ranker), a stochastic learner that finds these controllers directly. Across dozens of tasks, EZR achieved 90% of peak results with only 32 samples, replacing heavy solvers with light sampling.
- Abstract(参考訳): ソフトウェア検証はコストがかかり、現在の複雑なシステムでは失敗しながら、プロジェクトの作業の半分以上を引き受けます。
そこで本研究では,対象とする目標に向かってシステムを操縦するモデルフリー検索タスクとしてテストを扱う,検証とモデリングからシェディングへのシフトを提案する。
これは"影響のスパーシリティ(Sparsity of Influence)"を利用する - 大規模なソフトウェア状態空間がわずか数変数で支配されることが多いという事実を,確率的学習者であるEZR(Efficient Zero-knowledge Ranker)を紹介します。
数十のタスクで、EZRはピーク時の90%を32個のサンプルで達成し、重いソルバを光サンプリングで置き換えた。
関連論文リスト
- DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - SWE-MERA: A Dynamic Benchmark for Agenticly Evaluating Large Language Models on Software Engineering Tasks [3.3037205426689433]
ソフトウェア工学における大規模言語モデル(LLM)は、既存のベンチマークにおいて重要な制限を明らかにしている。
例えば、SWE-benchのレポートでは、パッチの32.67%は直接の溶液漏れを含んでいる。
SWE-MERA(SWE-MERA)は、これらの基本的な課題に対処するために設計された、動的で継続的に更新されたベンチマークである。
論文 参考訳(メタデータ) (2025-07-15T07:52:33Z) - Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。
既存のアプローチは、高品質なデータによる教師付き微調整に依存している。
本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文 参考訳(メタデータ) (2025-05-29T16:15:36Z) - AIC CTU system at AVeriTeC: Re-framing automated fact-checking as a simple RAG task [0.0]
本稿では、簡易な検索・拡張生成法(RAG)を用いて、野生で回収された証拠を用いた事実確認の課題に対する解決法について述べる。
我々は、その2つのモジュール、Retriever と Evidence & Label ジェネレータを詳細に説明し、MMR-re rank や Likert-scale confidence estimation などの特徴を正当化します。
我々は、予測の欠陥がデータ内のノイズや曖昧な事実チェックとよく一致し、さらなる研究とデータの増大を引き起こすことを実証的エラー解析により確認する。
論文 参考訳(メタデータ) (2024-10-15T09:50:19Z) - A Self-Supervised Task for Fault Detection in Satellite Multivariate Time Series [45.31237646796715]
この研究は、複雑な分布と高次元分布をモデル化する能力で有名な物理インフォームドリアルNVPニューラルネットワークを活用する新しいアプローチを提案する。
実験には、セルフスーパービジョンによる事前トレーニング、マルチタスク学習、スタンドアロンのセルフ教師付きトレーニングなど、さまざまな構成が含まれている。
結果は、すべての設定で大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2024-07-03T07:19:41Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video
Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。
自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。
この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文 参考訳(メタデータ) (2022-03-10T00:47:46Z) - Object Detection Made Simpler by Eliminating Heuristic NMS [70.93004137521946]
単純なNMSのないエンドツーエンドのオブジェクト検出フレームワークを示す。
検出精度は元の1段検出器と比べて同等か、さらに向上した。
論文 参考訳(メタデータ) (2021-01-28T02:38:29Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。