Fugu-MT 論文翻訳(概要): DQI: A Guide to Benchmark Evaluation

論文の概要: DQI: A Guide to Benchmark Evaluation

arxiv url: http://arxiv.org/abs/2008.03964v1
Date: Mon, 10 Aug 2020 08:38:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-31 22:10:46.347026
Title: DQI: A Guide to Benchmark Evaluation
Title（参考訳）: dqi: ベンチマーク評価のためのガイド
Authors: Swaroop Mishra, Anjana Arunkumar, Bhavdeep Sachdeva, Chris Bryan and Chitta Baral
Abstract要約: モデルAは、ベンチマークBで人間を上回るが、同様のベンチマークC、D、Eでは失敗する。そこで本研究では,データ品質指標DQIの導入により,ベンチマーク品質の定量化を図った新しい手法を提案する。
参考スコア（独自算出の注目度）: 22.54066527822898
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A `state of the art' model A surpasses humans in a benchmark B, but fails on similar benchmarks C, D, and E. What does B have that the other benchmarks do not? Recent research provides the answer: spurious bias. However, developing A to solve benchmarks B through E does not guarantee that it will solve future benchmarks. To progress towards a model that `truly learns' an underlying task, we need to quantify the differences between successive benchmarks, as opposed to existing binary and black-box approaches. We propose a novel approach to solve this underexplored task of quantifying benchmark quality by debuting a data quality metric: DQI.
Abstract（参考訳）: state of the art' model aはベンチマークbで人間を上回るが、類似のベンチマークc、d、eでは失敗する。最近の研究で答えが出ています。しかしながら、BからEまでのベンチマークを解決するAの開発は、将来のベンチマークを解決することを保証していない。基礎となるタスクを「真に学習する」モデルに向けて進むためには、既存のバイナリとブラックボックスのアプローチとは対照的に、連続するベンチマークの違いを定量化する必要がある。そこで本研究では,データ品質指標DQIの導入により,ベンチマーク品質の定量化を図っている。

関連論文リスト

RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文参考訳（メタデータ） (2025-06-02T17:54:04Z)
Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文参考訳（メタデータ） (2025-02-05T18:58:19Z)
Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。 GEDは,モデルランキング,応答選択,モデルアライメントタスクにおいて,ベースライン手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-14T01:57:25Z)
Do These LLM Benchmarks Agree? Fixing Benchmark Evaluation with BenchBench [15.565644819269803]
過度に見落とされた方法論的選択がベンチマークコンセンサステスト(BAT)の結果にどのように影響するかを示す。我々は、BAT用のピソンパッケージであるBenchBenchを紹介し、ベンチマークを仲間を使って評価するためのメタベンチマークであるBenchBench- Leaderboardをリリースする。
論文参考訳（メタデータ） (2024-07-18T17:00:23Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
Unsupervised Dense Retrieval with Relevance-Aware Contrastive Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文参考訳（メタデータ） (2023-06-05T18:20:27Z)
Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文参考訳（メタデータ） (2023-05-01T02:37:59Z)
Towards QD-suite: developing a set of benchmarks for Quality-Diversity algorithms [0.0]
既存のベンチマークは標準化されておらず、現在、品質多様性(QD)に匹敵するMNISTはない。我々は、QD手法が直面する課題の特定と、目標とする、挑戦的でスケーラブルなベンチマークの開発が重要なステップであると主張している。
論文参考訳（メタデータ） (2022-05-06T13:33:50Z)
How not to Lie with a Benchmark: Rearranging NLP Leaderboards [0.0]
一般的なNLPベンチマークの総合評価手法について検討し、幾何平均と調和平均でモデルを並べ替える。我々は、GLUE、SuperGLUE、XGLUE、XTREMEなどの人気のあるベンチマークを分析した。
論文参考訳（メタデータ） (2021-12-02T15:40:52Z)
What Will it Take to Fix Benchmarking in Natural Language Understanding? [30.888416756627155]
我々は、NLUベンチマークが満たすべきと議論する4つの基準を定めている。健全な評価エコシステムの復元には、ベンチマークデータセットの設計に大きな進歩が必要だ。
論文参考訳（メタデータ） (2021-04-05T20:36:11Z)
Do Question Answering Modeling Improvements Hold Across Benchmarks? [84.48867898593052]
20種類の多種多様なモデリング手法を用いて32のQAベンチマークの一致を計測する。何年にもわたってコミュニティは少数のベンチマークに力を入れてきたが、研究対象のモデリングの改善は広く続いている。
論文参考訳（メタデータ） (2021-02-01T18:55:38Z)
Towards GAN Benchmarks Which Require Generalization [48.075521136623564]
関数を推定するにはモデルからの大きなサンプルが必要であると我々は主張する。我々は、分布を区別するために訓練されたニューラルネットワークの用語で定義されるニューラルネットワーク分散(NND)に目を向ける。結果として得られたベンチマークは、トレーニングセットの記憶によって"ウォン"することはできないが、それでも知覚的に相関があり、サンプルからのみ計算可能である。
論文参考訳（メタデータ） (2020-01-10T20:18:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。