論文の概要: Do Question Answering Modeling Improvements Hold Across Benchmarks?
- arxiv url: http://arxiv.org/abs/2102.01065v3
- Date: Tue, 30 May 2023 20:50:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 04:58:39.175027
- Title: Do Question Answering Modeling Improvements Hold Across Benchmarks?
- Title(参考訳): 質問応答モデリングの改善はベンチマーク全体を支えるか?
- Authors: Nelson F. Liu and Tony Lee and Robin Jia and Percy Liang
- Abstract要約: 20種類の多種多様なモデリング手法を用いて32のQAベンチマークの一致を計測する。
何年にもわたってコミュニティは少数のベンチマークに力を入れてきたが、研究対象のモデリングの改善は広く続いている。
- 参考スコア(独自算出の注目度): 84.48867898593052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Do question answering (QA) modeling improvements (e.g., choice of
architecture and training procedure) hold consistently across the diverse
landscape of QA benchmarks? To study this question, we introduce the notion of
concurrence -- two benchmarks have high concurrence on a set of modeling
approaches if they rank the modeling approaches similarly. We measure the
concurrence between 32 QA benchmarks on a set of 20 diverse modeling approaches
and find that human-constructed benchmarks have high concurrence amongst
themselves, even if their passage and question distributions are very
different. Surprisingly, even downsampled human-constructed benchmarks (i.e.,
collecting less data) and programmatically-generated benchmarks (e.g.,
cloze-formatted examples) have high concurrence with human-constructed
benchmarks. These results indicate that, despite years of intense community
focus on a small number of benchmarks, the modeling improvements studied hold
broadly.
- Abstract(参考訳): 質問応答(QA)モデリングの改善(アーキテクチャの選択やトレーニング手順など)は、QAベンチマークのさまざまな状況で一貫して維持されますか?
この問題を研究するために,2つのベンチマークは,モデルアプローチを同様にランク付けした場合に,一連のモデリングアプローチに対して高い精度を持つ。
20種類の多様なモデリング手法を用いて32のQAベンチマークの一致を計測し、その通過と問合せの分布が全く異なる場合でも、人為的なベンチマークは互いに高い一致性を持つことを示した。
驚くべきことに、人体構築ベンチマーク(例えば、少ないデータ収集)やプログラムで生成されたベンチマーク(例えば、クローゼフォーマットの例)でさえ、人体構築ベンチマークと高い精度を持つ。
これらの結果は、コミュニティが少数のベンチマークに力を入れてきたにもかかわらず、研究対象のモデリング改善は広範に維持されていることを示唆している。
関連論文リスト
- Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - MMBench: Is Your Multi-modal Model an All-around Player? [117.53230227207521]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。
従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。
近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。
MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - A Theoretically Grounded Benchmark for Evaluating Machine Commonsense [6.725087407394836]
理論的に答えるコモンセンス推論(TG-CSR)は差別的な質問応答に基づいているが、コモンセンスの多様な側面を評価するために設計された。
TG-CSRは、ゴードンとホッブズによるコモンセンスの実行可能な理論として最初に提案されたコモンセンス圏のサブセットに基づいている。
予備的な結果は、このベンチマークが差別的なCSR質問応答タスクのために設計された高度な言語表現モデルに対してさえ挑戦的であることを示唆している。
論文 参考訳(メタデータ) (2022-03-23T04:06:01Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - How not to Lie with a Benchmark: Rearranging NLP Leaderboards [0.0]
一般的なNLPベンチマークの総合評価手法について検討し、幾何平均と調和平均でモデルを並べ替える。
我々は、GLUE、SuperGLUE、XGLUE、XTREMEなどの人気のあるベンチマークを分析した。
論文 参考訳(メタデータ) (2021-12-02T15:40:52Z) - DQI: A Guide to Benchmark Evaluation [22.54066527822898]
モデルAは、ベンチマークBで人間を上回るが、同様のベンチマークC、D、Eでは失敗する。
そこで本研究では,データ品質指標DQIの導入により,ベンチマーク品質の定量化を図った新しい手法を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:38:55Z) - Interpretable Meta-Measure for Model Performance [4.91155110560629]
Elo-based Predictive Power (EPP) と呼ばれる新しいメタスコアアセスメントを導入する。
EPPは、他のパフォーマンス指標の上に構築されており、モデルの解釈可能な比較を可能にする。
本研究では,EPPの数学的特性を証明し,30の分類データセット上の大規模ベンチマークと実世界のビジュアルデータに対するベンチマークを実証的に支援する。
論文 参考訳(メタデータ) (2020-06-02T14:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。