論文の概要: Can Small and Synthetic Benchmarks Drive Modeling Innovation? A
Retrospective Study of Question Answering Modeling Approaches
- arxiv url: http://arxiv.org/abs/2102.01065v1
- Date: Mon, 1 Feb 2021 18:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:45:27.075198
- Title: Can Small and Synthetic Benchmarks Drive Modeling Innovation? A
Retrospective Study of Question Answering Modeling Approaches
- Title(参考訳): 小さくて合成的なベンチマークは、モデリングのイノベーションを駆動できますか?
質問応答モデリング手法のふりかえり的研究
- Authors: Nelson F. Liu and Tony Lee and Robin Jia and Percy Liang
- Abstract要約: 既存の32のベンチマークと合成ベンチマークがSQuADとどのように一致しているかを考察する。
我々は、自然言語に似ていない小さな、ターゲットの合成ベンチマークを構築した。
この結果から,小型かつ慎重に設計された合成ベンチマークが新たなモデリング手法の開発に有用である可能性が示唆された。
- 参考スコア(独自算出の注目度): 70.70352722921719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Datasets are not only resources for training accurate, deployable systems,
but are also benchmarks for developing new modeling approaches. While large,
natural datasets are necessary for training accurate systems, are they
necessary for driving modeling innovation? For example, while the popular SQuAD
question answering benchmark has driven the development of new modeling
approaches, could synthetic or smaller benchmarks have led to similar
innovations?
This counterfactual question is impossible to answer, but we can study a
necessary condition: the ability for a benchmark to recapitulate findings made
on SQuAD. We conduct a retrospective study of 20 SQuAD modeling approaches,
investigating how well 32 existing and synthesized benchmarks concur with SQuAD
-- i.e., do they rank the approaches similarly? We carefully construct small,
targeted synthetic benchmarks that do not resemble natural language, yet have
high concurrence with SQuAD, demonstrating that naturalness and size are not
necessary for reflecting historical modeling improvements on SQuAD. Our results
raise the intriguing possibility that small and carefully designed synthetic
benchmarks may be useful for driving the development of new modeling
approaches.
- Abstract(参考訳): データセットは、正確でデプロイ可能なシステムのトレーニングのためのリソースであるだけでなく、新しいモデリングアプローチを開発するためのベンチマークでもある。
正確なシステムのトレーニングには大規模で自然なデータセットが必要ですが、モデリングの革新を促進するには必要でしょうか?
例えば、人気のあるsunity question answering benchmarkは、新しいモデリングアプローチの開発につながったが、シンセサイザーや小さなベンチマークが同様のイノベーションに繋がる可能性がある。
この反現実的な質問は答えられないが、我々は必要条件、すなわちベンチマークがSQuAD上で行った発見を再カプセル化できる能力について研究することができる。
我々は20のSQuADモデリングアプローチの振り返り調査を行い、32の既存および合成ベンチマークがSQuADとどのように一致しているかを調査する。
我々は,SQuADに類似しないが,SQuADとの精度が高く,SQuADの歴史的モデリング改善を反映するためには,自然性やサイズは必要ないことを実証した,小型でターゲットの合成ベンチマークを慎重に構築する。
この結果から,小型かつ慎重に設計された合成ベンチマークが新たなモデリング手法の開発に有用である可能性が示唆された。
関連論文リスト
- Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - MMBench: Is Your Multi-modal Model an All-around Player? [117.53230227207521]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。
従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。
近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。
MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - A Theoretically Grounded Benchmark for Evaluating Machine Commonsense [6.725087407394836]
理論的に答えるコモンセンス推論(TG-CSR)は差別的な質問応答に基づいているが、コモンセンスの多様な側面を評価するために設計された。
TG-CSRは、ゴードンとホッブズによるコモンセンスの実行可能な理論として最初に提案されたコモンセンス圏のサブセットに基づいている。
予備的な結果は、このベンチマークが差別的なCSR質問応答タスクのために設計された高度な言語表現モデルに対してさえ挑戦的であることを示唆している。
論文 参考訳(メタデータ) (2022-03-23T04:06:01Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - How not to Lie with a Benchmark: Rearranging NLP Leaderboards [0.0]
一般的なNLPベンチマークの総合評価手法について検討し、幾何平均と調和平均でモデルを並べ替える。
我々は、GLUE、SuperGLUE、XGLUE、XTREMEなどの人気のあるベンチマークを分析した。
論文 参考訳(メタデータ) (2021-12-02T15:40:52Z) - DQI: A Guide to Benchmark Evaluation [22.54066527822898]
モデルAは、ベンチマークBで人間を上回るが、同様のベンチマークC、D、Eでは失敗する。
そこで本研究では,データ品質指標DQIの導入により,ベンチマーク品質の定量化を図った新しい手法を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:38:55Z) - Interpretable Meta-Measure for Model Performance [4.91155110560629]
Elo-based Predictive Power (EPP) と呼ばれる新しいメタスコアアセスメントを導入する。
EPPは、他のパフォーマンス指標の上に構築されており、モデルの解釈可能な比較を可能にする。
本研究では,EPPの数学的特性を証明し,30の分類データセット上の大規模ベンチマークと実世界のビジュアルデータに対するベンチマークを実証的に支援する。
論文 参考訳(メタデータ) (2020-06-02T14:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。