論文の概要: muRelBench: MicroBenchmarks for Zonotope Domains
- arxiv url: http://arxiv.org/abs/2404.16243v1
- Date: Wed, 24 Apr 2024 23:16:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 15:17:42.261048
- Title: muRelBench: MicroBenchmarks for Zonotope Domains
- Title(参考訳): muRelBench: Zonotopeドメイン用のマイクロベンチマーク
- Authors: Kenny Ballou, Elena Sherman,
- Abstract要約: 本稿では、弱い関係の抽象ドメインとその操作のための合成ベンチマークであるttexttmuRelBenchを紹介する。
例えば、ベンチマークはドメイン閉鎖のような提案されたアルゴリズムの実験的な評価をサポートすることができる。
- 参考スコア(独自算出の注目度): 1.2430809884830318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present \texttt{muRelBench}, a suite of synthetic benchmarks for weakly-relational abstract domains and their operations. For example, the benchmarks can support experimental evaluations of proposed algorithms such as domain closure.
- Abstract(参考訳): 我々は、弱い関係の抽象ドメインとその操作のための合成ベンチマークスイートである、texttt{muRelBench}を提示する。
例えば、ベンチマークはドメイン閉鎖のような提案されたアルゴリズムの実験的な評価をサポートすることができる。
関連論文リスト
- DomainSum: A Hierarchical Benchmark for Fine-Grained Domain Shift in Abstractive Text Summarization [1.7009235747761653]
DomainSumは抽象的な要約において、きめ細かいドメインシフトをキャプチャするために設計された階層的なベンチマークである。
これらの変化をジャンル,スタイル,トピックという3つのレベルに分類し,階層構造に従うような総合的なベンチマーク分析を通じて示す。
論文 参考訳(メタデータ) (2024-10-21T06:55:35Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Evaluating Cross-Domain Text-to-SQL Models and Benchmarks [7.388002745070808]
テキスト・ツー・ベンチマークを研究し、これらのベンチマークの中で最高のパフォーマンスのモデルを再評価する。
これらのベンチマークで完全な性能を達成することは、提供されたサンプルから導出できる複数の解釈のため不可能であることがわかった。
GPT4ベースのモデルは、人間の評価においてスパイダーベンチマークのゴールド標準基準クエリを上回る。
論文 参考訳(メタデータ) (2023-10-27T23:36:14Z) - Ten New Benchmarks for Optimization [1.6589012298747952]
ベンチマークは、パフォーマンスを評価するために、新しい最適化アルゴリズムとその変種をテストするために使用される。
この章では、ノイズ、不連続性、パラメータ推定、未知のパスなど、さまざまな特性を持つ10の新しいベンチマークを紹介します。
論文 参考訳(メタデータ) (2023-08-30T10:02:52Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - Comparing Methods for Extractive Summarization of Call Centre Dialogue [77.34726150561087]
そこで本稿では,これらの手法を用いて呼の要約を生成し,客観的に評価することにより,実験的な比較を行った。
TopicSum と Lead-N は他の要約法よりも優れており,BERTSum は主観的評価と客観的評価の両方で比較的低いスコアを得た。
論文 参考訳(メタデータ) (2022-09-06T13:16:02Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Parallelizing Contextual Linear Bandits [82.65675585004448]
並列な)コンテキスト線形バンディットアルゴリズムの族を提示し、その遺残はそれらの完全シーケンシャルなアルゴリズムとほぼ同一である。
また,これらの並列アルゴリズムについて,材料発見や生物配列設計の問題など,いくつかの領域で実証評価を行った。
論文 参考訳(メタデータ) (2021-05-21T22:22:02Z) - Collaborative Management of Benchmark Instances and their Attributes [1.8047694351309207]
パブリックなベンチマークインスタンスはSAT解決の手法を評価するために広く利用されている。
ベンチマークインスタンスとその属性の相互関係のキャプチャは、ベンチマークインスタンス識別子の仕様によって大幅に単純化されます。
論文 参考訳(メタデータ) (2020-09-07T10:23:08Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。