Fugu-MT 論文翻訳(概要): PASDA: A Partition-based Semantic Differencing Approach with Best Effort Classification of Undecided Cases

論文の概要: PASDA: A Partition-based Semantic Differencing Approach with Best Effort Classification of Undecided Cases

arxiv url: http://arxiv.org/abs/2311.08071v1
Date: Tue, 14 Nov 2023 10:48:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 14:41:43.034024
Title: PASDA: A Partition-based Semantic Differencing Approach with Best Effort Classification of Undecided Cases
Title（参考訳）: pasda:未決定のケースを最善の労力分類で分類する分割に基づく意味的差異抽出アプローチ
Authors: Johann Glock, Josef Pichler, Martin Pinzger
Abstract要約: PASDAは分割に基づく意味差分法であり、未決定事例の最良の分類法である。我々はPASDAを141の非等価プログラムペアからなる既存のベンチマークで評価する。 PASDAは、既存の3つのツールが達成した最良の結果よりも37%高い精度で同値チェックを行った。
参考スコア（独自算出の注目度）: 0.181559014430039
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Equivalence checking is used to verify whether two programs produce equivalent outputs when given equivalent inputs. Research in this field mainly focused on improving equivalence checking accuracy and runtime performance. However, for program pairs that cannot be proven to be either equivalent or non-equivalent, existing approaches only report a classification result of "unknown", which provides no information regarding the programs' non-/equivalence. In this paper, we introduce PASDA, our partition-based semantic differencing approach with best effort classification of undecided cases. While PASDA aims to formally prove non-/equivalence of analyzed program pairs using a variant of differential symbolic execution, its main novelty lies in its handling of cases for which no formal non-/equivalence proof can be found. For such cases, PASDA provides a best effort equivalence classification based on a set of classification heuristics. We evaluated PASDA with an existing benchmark consisting of 141 non-/equivalent program pairs. PASDA correctly classified 61-74% of these cases at timeouts from 10 seconds to 3600 seconds. Thus, PASDA achieved equivalence checking accuracies that are 3-7% higher than the best results achieved by three existing tools. Furthermore, PASDA's best effort classifications were correct for 70-75% of equivalent and 55-85% of non-equivalent cases across the different timeouts.
Abstract（参考訳）: 等価チェックは、2つのプログラムが与えられた等価入力に対して等価な出力を生成するかどうかを検証するために使用される。この分野での研究は主に同値チェックの精度と実行時の性能を改善することに焦点を当てた。しかし、プログラムペアが等価あるいは等価でないことが証明できない場合、既存のアプローチでは、プログラムの非等価性に関する情報を提供する「未知」の分類結果のみを報告している。本稿では、分割に基づく意味差分法であるPASDAについて、未決定事例の最良の分類法として紹介する。 pasda は微分記号実行の変種を用いて解析されたプログラムペアの非等価性を形式的に証明することを目指しているが、その主な新規性は形式的な非等価証明が見つからない場合を扱うことである。そのような場合、PASDAは分類ヒューリスティックの集合に基づいて、最高の努力等価分類を提供する。我々はPASDAを141の非等価プログラムペアからなる既存のベンチマークで評価した。 PASDAはタイムアウト時の61-74%を10秒から3600秒に正確に分類した。このようにして、PASDAは既存の3つのツールが達成した最良の結果よりも37%高い精度で同値チェックを行った。さらに、PASDAのベストな取り組み分類は、異なるタイムアウトの70-75%と55-85%の非等価なケースに対して正しかった。

関連論文リスト

On Randomness in Agentic Evals [6.177270420667714]
エージェントシステムは、エージェントがタスクを解決するために環境と対話するベンチマークで評価される。ほとんどの論文では、タスク毎にひとつの実行から計算されたpass@1スコアが報告されている。単一ランパス@1推定値は、どのランが選択されたかによって2.2から6.0ポイント異なる。
論文参考訳（メタデータ） (2026-02-06T19:49:13Z)
Semantic F1 Scores: Fair Evaluation Under Fuzzy Class Boundaries [65.89202599399252]
本稿では,主観的,ファジィなマルチラベル分類のための新しい評価指標であるセマンティックF1スコアを提案する。セマンティックF1は意味的に関連があるが、識別できないラベルに部分クレジットを与えることで、人間の不一致やファジィ圏の境界によって特徴付けられる領域の現実をよりよく反映する。
論文参考訳（メタデータ） (2025-09-25T21:48:48Z)
EquiBench: Benchmarking Code Reasoning Capabilities of Large Language Models via Equivalence Checking [54.354203142828084]
本稿では,大規模言語モデルのコード推論能力を評価する新しい手法として等価チェックの課題を提案する。 EquiBenchは、4つのプログラミング言語と6つの等価カテゴリにまたがる2400のプログラムペアのデータセットである。その結果,OpenAI o3-miniの精度は78.0%と高いことがわかった。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
Statistical Multicriteria Benchmarking via the GSD-Front [0.5242869847419834]
一般化支配順序付け(GSD)を用いた分類器の比較を提案する。我々は、(潜在的に新しい)分類器が、最先端の分類器のセットのGSDフロントにあるかどうかを統計的に検証する。ベンチマークスイートであるPMLBとプラットフォームであるOpenMLについて説明する。
論文参考訳（メタデータ） (2024-06-06T10:06:27Z)
Variable selection for Na\"ive Bayes classification [2.8265531928694116]
Na"ive Bayes"は多変量解析において、抽出可能かつ効率的な分類法であることが証明されている。 3つの性質を特徴とする「ナイーブベイズ」のスパース版を提案する。提案手法は, 特徴選択法と比較すると, スパースNa"ive Bayesは競争力のある結果が得られることがわかった。
論文参考訳（メタデータ） (2024-01-31T18:01:36Z)
Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。 DAの明確な検証プロトコルは、文献の悪い実践につながっている。ドメイン適応手法の3つの分野にまたがる課題を示す。
論文参考訳（メタデータ） (2023-09-07T17:44:18Z)
On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。 TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文参考訳（メタデータ） (2023-06-06T09:35:29Z)
Invalidator: Automated Patch Correctness Assessment via Semantic and Syntactic Reasoning [6.269370220586248]
本稿では,意味論的および統語論的推論により,APR生成パッチの正当性を自動的に評価する手法を提案する。我々は、Defects4Jの現実世界のプログラムで生成された885パッチのデータセットについて実験を行った。実験の結果,INVALIDATORは79%のオーバーフィッティングパッチを正しく分類し,最高のベースラインで検出されたパッチを23%上回った。
論文参考訳（メタデータ） (2023-01-03T14:16:32Z)
Parametric Classification for Generalized Category Discovery: A Baseline Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文参考訳（メタデータ） (2022-11-21T18:47:11Z)
Certified Error Control of Candidate Set Pruning for Two-Stage Relevance Ranking [57.42241521034744]
本稿では、妥当性ランキングのための候補セットプルーニングの認証エラー制御の概念を提案する。提案手法は,第1段階から抽出した候補集合を抽出し,第2段階の復位速度を向上する。
論文参考訳（メタデータ） (2022-05-19T16:00:13Z)
RankingMatch: Delving into Semi-Supervised Learning with Consistency Regularization and Ranking Loss [3.5893231087319655]
ラベル付きデータに制限がある場合、ラベル付きデータを活用する上で、半教師付き学習(SSL)が重要な役割を果たす。そこで我々は,摂動入力だけでなく,同じラベルを持つ入力間の類似性も考慮する新しい手法である RankingMatch を提案する。当社の RankingMatch は,さまざまなラベル付きデータ量を持つ標準SSLベンチマークにおいて,最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2021-10-09T01:54:29Z)
Pointwise Binary Classification with Pairwise Confidence Comparisons [97.79518780631457]
ペアワイズ比較(Pcomp)分類を提案し、ラベルのないデータのペアしか持たない。我々はPcomp分類をノイズラベル学習に結びつけて、進歩的UREを開発し、一貫性の正則化を課すことにより改善する。
論文参考訳（メタデータ） (2020-10-05T09:23:58Z)
Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-15T10:08:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。