論文の概要: Collaborative Management of Benchmark Instances and their Attributes
- arxiv url: http://arxiv.org/abs/2009.02995v2
- Date: Thu, 9 Sep 2021 08:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 03:24:54.720451
- Title: Collaborative Management of Benchmark Instances and their Attributes
- Title(参考訳): ベンチマークインスタンスの協調管理とその属性
- Authors: Markus Iser, Luca Springer, Carsten Sinz
- Abstract要約: パブリックなベンチマークインスタンスはSAT解決の手法を評価するために広く利用されている。
ベンチマークインスタンスとその属性の相互関係のキャプチャは、ベンチマークインスタンス識別子の仕様によって大幅に単純化されます。
- 参考スコア(独自算出の注目度): 1.8047694351309207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experimental evaluation is an integral part in the design process of
algorithms. Publicly available benchmark instances are widely used to evaluate
methods in SAT solving. For the interpretation of results and the design of
algorithm portfolios their attributes are crucial. Capturing the interrelation
of benchmark instances and their attributes is considerably simplified through
our specification of a benchmark instance identifier. Thus, our tool increases
the availability of both by providing means to manage and retrieve benchmark
instances by their attributes and vice versa. Like this, it facilitates the
design and analysis of SAT experiments and the exchange of results.
- Abstract(参考訳): 実験評価はアルゴリズムの設計過程において不可欠な部分である。
パブリックなベンチマークインスタンスはSAT解決の手法を評価するために広く利用されている。
結果の解釈とアルゴリズムポートフォリオの設計には,それらの特性が不可欠である。
ベンチマークインスタンスとその属性の相互関係のキャプチャは、ベンチマークインスタンス識別子の仕様によって大幅に単純化されます。
このように、我々のツールは、それらの属性によってベンチマークインスタンスを管理し、検索する手段を提供することで、両方の可用性を高めます。
このように、SAT実験の設計と解析と結果の交換を容易にする。
関連論文リスト
- RepMatch: Quantifying Cross-Instance Similarities in Representation Space [15.215985417763472]
類似性のレンズを通してデータを特徴付ける新しい手法であるRepMatchを紹介する。
RepMatchは、トレーニングインスタンスのサブセット間の類似性を、トレーニングされたモデルにエンコードされた知識と比較することによって定量化する。
複数のNLPタスク、データセット、モデルにまたがるRepMatchの有効性を検証する。
論文 参考訳(メタデータ) (2024-10-12T20:42:28Z) - ECBD: Evidence-Centered Benchmark Design for NLP [95.50252564938417]
ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。
各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。
分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T00:59:55Z) - Instruction Tuning with Retrieval-based Examples Ranking for Aspect-based Sentiment Analysis [7.458853474864602]
アスペクトベースの感情分析(ABSA)は、特定の側面に関連する感情情報を識別し、企業や組織に対してより深い市場洞察を提供する。
近年の研究では、ABSAを生成タスクとして再構成する命令チューニングの固定例が提案されている。
本研究では,ABSAタスクの検索に基づくサンプルランキングを用いた指導学習手法を提案する。
論文 参考訳(メタデータ) (2024-05-28T10:39:10Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Test Case Recommendations with Distributed Representation of Code
Syntactic Features [2.225268436173329]
本稿では,ソースコード手法とテストケースの構造的・意味的特性を利用する自動手法を提案する。
提案するアプローチは、当初、メソッドレベルのソースコードとユニットテストを分散表現に変換するためにニューラルネットワークをトレーニングする。
このモデルは、メソッドの埋め込みと以前に組み込まれたトレーニングインスタンスのコサイン類似性を計算します。
論文 参考訳(メタデータ) (2023-10-04T21:42:01Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - A Framework for Generating Informative Benchmark Instances [3.8848561367220276]
ベンチマークは、代替解決アプローチの相対的なパフォーマンスを評価するための重要なツールである。
現代の制約プログラミング言語は、インスタンスデータに対してパラメータ化されるクラスレベルのモデルの仕様を許容する。
これら2つのプロパティを組み合わせて多数のベンチマークインスタンスを生成するフレームワークを導入する。
論文 参考訳(メタデータ) (2022-05-29T19:56:08Z) - Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on
Spoken Language Understanding [101.24748444126982]
分解可能なタスクは複雑で、サブタスクの階層から構成される。
しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例が示される。
サブタスク固有のユーティリティ関数上の座標アセントを用いて、ロバストなテストセットを構築するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T02:53:59Z) - Toward Scalable and Unified Example-based Explanation and Outlier
Detection [128.23117182137418]
我々は,試行錯誤の予測に例ベースの説明を与えることのできる,プロトタイプベースの学生ネットワークのより広範な採用を論じる。
類似カーネル以外のプロトタイプベースのネットワークは,分類精度を損なうことなく,有意義な説明と有望な外乱検出結果が得られることを示す。
論文 参考訳(メタデータ) (2020-11-11T05:58:17Z) - IOHanalyzer: Detailed Performance Analyses for Iterative Optimization
Heuristics [3.967483941966979]
IOHanalyzerは、IOHのパフォーマンスデータを分析、比較、視覚化するための新しいユーザフレンドリーなツールである。
IOHanalyzerは、固定目標実行時間とベンチマークアルゴリズムの固定予算性能に関する詳細な統計を提供する。
IOHanalyzerは、主要なベンチマークプラットフォームから直接パフォーマンスデータを処理できる。
論文 参考訳(メタデータ) (2020-07-08T08:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。