Fugu-MT 論文翻訳(概要): Collaborative Management of Benchmark Instances and their Attributes

論文の概要: Collaborative Management of Benchmark Instances and their Attributes

arxiv url: http://arxiv.org/abs/2009.02995v2
Date: Thu, 9 Sep 2021 08:13:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-21 03:24:54.720451
Title: Collaborative Management of Benchmark Instances and their Attributes
Title（参考訳）: ベンチマークインスタンスの協調管理とその属性
Authors: Markus Iser, Luca Springer, Carsten Sinz
Abstract要約: パブリックなベンチマークインスタンスはSAT解決の手法を評価するために広く利用されている。ベンチマークインスタンスとその属性の相互関係のキャプチャは、ベンチマークインスタンス識別子の仕様によって大幅に単純化されます。
参考スコア（独自算出の注目度）: 1.8047694351309207
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Experimental evaluation is an integral part in the design process of algorithms. Publicly available benchmark instances are widely used to evaluate methods in SAT solving. For the interpretation of results and the design of algorithm portfolios their attributes are crucial. Capturing the interrelation of benchmark instances and their attributes is considerably simplified through our specification of a benchmark instance identifier. Thus, our tool increases the availability of both by providing means to manage and retrieve benchmark instances by their attributes and vice versa. Like this, it facilitates the design and analysis of SAT experiments and the exchange of results.
Abstract（参考訳）: 実験評価はアルゴリズムの設計過程において不可欠な部分である。パブリックなベンチマークインスタンスはSAT解決の手法を評価するために広く利用されている。結果の解釈とアルゴリズムポートフォリオの設計には,それらの特性が不可欠である。ベンチマークインスタンスとその属性の相互関係のキャプチャは、ベンチマークインスタンス識別子の仕様によって大幅に単純化されます。このように、我々のツールは、それらの属性によってベンチマークインスタンスを管理し、検索する手段を提供することで、両方の可用性を高めます。このように、SAT実験の設計と解析と結果の交換を容易にする。

関連論文リスト

Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文参考訳（メタデータ） (2025-08-07T02:51:10Z)
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。 StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文参考訳（メタデータ） (2024-12-23T22:08:40Z)
RepMatch: Quantifying Cross-Instance Similarities in Representation Space [15.215985417763472]
類似性のレンズを通してデータを特徴付ける新しい手法であるRepMatchを紹介する。 RepMatchは、トレーニングインスタンスのサブセット間の類似性を、トレーニングされたモデルにエンコードされた知識と比較することによって定量化する。複数のNLPタスク、データセット、モデルにまたがるRepMatchの有効性を検証する。
論文参考訳（メタデータ） (2024-10-12T20:42:28Z)
ECBD: Evidence-Centered Benchmark Design for NLP [95.50252564938417]
ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文参考訳（メタデータ） (2024-06-13T00:59:55Z)
Instruction Tuning with Retrieval-based Examples Ranking for Aspect-based Sentiment Analysis [7.458853474864602]
アスペクトベースの感情分析(ABSA)は、特定の側面に関連する感情情報を識別し、企業や組織に対してより深い市場洞察を提供する。近年の研究では、ABSAを生成タスクとして再構成する命令チューニングの固定例が提案されている。本研究では,ABSAタスクの検索に基づくサンプルランキングを用いた指導学習手法を提案する。
論文参考訳（メタデータ） (2024-05-28T10:39:10Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文参考訳（メタデータ） (2024-01-26T14:21:45Z)
Test Case Recommendations with Distributed Representation of Code Syntactic Features [2.225268436173329]
本稿では,ソースコード手法とテストケースの構造的・意味的特性を利用する自動手法を提案する。提案するアプローチは、当初、メソッドレベルのソースコードとユニットテストを分散表現に変換するためにニューラルネットワークをトレーニングする。このモデルは、メソッドの埋め込みと以前に組み込まれたトレーニングインスタンスのコサイン類似性を計算します。
論文参考訳（メタデータ） (2023-10-04T21:42:01Z)
Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-05-23T18:01:49Z)
A Framework for Generating Informative Benchmark Instances [3.8848561367220276]
ベンチマークは、代替解決アプローチの相対的なパフォーマンスを評価するための重要なツールである。現代の制約プログラミング言語は、インスタンスデータに対してパラメータ化されるクラスレベルのモデルの仕様を許容する。これら2つのプロパティを組み合わせて多数のベンチマークインスタンスを生成するフレームワークを導入する。
論文参考訳（メタデータ） (2022-05-29T19:56:08Z)
Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on Spoken Language Understanding [101.24748444126982]
分解可能なタスクは複雑で、サブタスクの階層から構成される。しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例が示される。サブタスク固有のユーティリティ関数上の座標アセントを用いて、ロバストなテストセットを構築するためのフレームワークを提案する。
論文参考訳（メタデータ） (2021-06-29T02:53:59Z)
Toward Scalable and Unified Example-based Explanation and Outlier Detection [128.23117182137418]
我々は,試行錯誤の予測に例ベースの説明を与えることのできる,プロトタイプベースの学生ネットワークのより広範な採用を論じる。類似カーネル以外のプロトタイプベースのネットワークは,分類精度を損なうことなく,有意義な説明と有望な外乱検出結果が得られることを示す。
論文参考訳（メタデータ） (2020-11-11T05:58:17Z)
IOHanalyzer: Detailed Performance Analyses for Iterative Optimization Heuristics [3.967483941966979]
IOHanalyzerは、IOHのパフォーマンスデータを分析、比較、視覚化するための新しいユーザフレンドリーなツールである。 IOHanalyzerは、固定目標実行時間とベンチマークアルゴリズムの固定予算性能に関する詳細な統計を提供する。 IOHanalyzerは、主要なベンチマークプラットフォームから直接パフォーマンスデータを処理できる。
論文参考訳（メタデータ） (2020-07-08T08:20:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。