論文の概要: Do Question Answering Modeling Improvements Hold Across Benchmarks?
- arxiv url: http://arxiv.org/abs/2102.01065v3
- Date: Tue, 30 May 2023 20:50:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 04:58:39.175027
- Title: Do Question Answering Modeling Improvements Hold Across Benchmarks?
- Title(参考訳): 質問応答モデリングの改善はベンチマーク全体を支えるか?
- Authors: Nelson F. Liu and Tony Lee and Robin Jia and Percy Liang
- Abstract要約: 20種類の多種多様なモデリング手法を用いて32のQAベンチマークの一致を計測する。
何年にもわたってコミュニティは少数のベンチマークに力を入れてきたが、研究対象のモデリングの改善は広く続いている。
- 参考スコア(独自算出の注目度): 84.48867898593052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Do question answering (QA) modeling improvements (e.g., choice of
architecture and training procedure) hold consistently across the diverse
landscape of QA benchmarks? To study this question, we introduce the notion of
concurrence -- two benchmarks have high concurrence on a set of modeling
approaches if they rank the modeling approaches similarly. We measure the
concurrence between 32 QA benchmarks on a set of 20 diverse modeling approaches
and find that human-constructed benchmarks have high concurrence amongst
themselves, even if their passage and question distributions are very
different. Surprisingly, even downsampled human-constructed benchmarks (i.e.,
collecting less data) and programmatically-generated benchmarks (e.g.,
cloze-formatted examples) have high concurrence with human-constructed
benchmarks. These results indicate that, despite years of intense community
focus on a small number of benchmarks, the modeling improvements studied hold
broadly.
- Abstract(参考訳): 質問応答(QA)モデリングの改善(アーキテクチャの選択やトレーニング手順など)は、QAベンチマークのさまざまな状況で一貫して維持されますか?
この問題を研究するために,2つのベンチマークは,モデルアプローチを同様にランク付けした場合に,一連のモデリングアプローチに対して高い精度を持つ。
20種類の多様なモデリング手法を用いて32のQAベンチマークの一致を計測し、その通過と問合せの分布が全く異なる場合でも、人為的なベンチマークは互いに高い一致性を持つことを示した。
驚くべきことに、人体構築ベンチマーク(例えば、少ないデータ収集)やプログラムで生成されたベンチマーク(例えば、クローゼフォーマットの例)でさえ、人体構築ベンチマークと高い精度を持つ。
これらの結果は、コミュニティが少数のベンチマークに力を入れてきたにもかかわらず、研究対象のモデリング改善は広範に維持されていることを示唆している。
関連論文リスト
- BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare [99.57567498494448]
我々はLMMに基づくノン参照IQAモデルであるCompare2Scoreを紹介する。
トレーニング中、同じIQAデータセットの画像を比較することで、スケールアップ比較命令を生成する。
9つのIQAデータセットの実験により、Compare2Scoreは、トレーニング中にテキスト定義の比較レベルを効果的にブリッジすることを確認した。
論文 参考訳(メタデータ) (2024-05-29T17:26:09Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - A Theoretically Grounded Benchmark for Evaluating Machine Commonsense [6.725087407394836]
理論的に答えるコモンセンス推論(TG-CSR)は差別的な質問応答に基づいているが、コモンセンスの多様な側面を評価するために設計された。
TG-CSRは、ゴードンとホッブズによるコモンセンスの実行可能な理論として最初に提案されたコモンセンス圏のサブセットに基づいている。
予備的な結果は、このベンチマークが差別的なCSR質問応答タスクのために設計された高度な言語表現モデルに対してさえ挑戦的であることを示唆している。
論文 参考訳(メタデータ) (2022-03-23T04:06:01Z) - How not to Lie with a Benchmark: Rearranging NLP Leaderboards [0.0]
一般的なNLPベンチマークの総合評価手法について検討し、幾何平均と調和平均でモデルを並べ替える。
我々は、GLUE、SuperGLUE、XGLUE、XTREMEなどの人気のあるベンチマークを分析した。
論文 参考訳(メタデータ) (2021-12-02T15:40:52Z) - DQI: A Guide to Benchmark Evaluation [22.54066527822898]
モデルAは、ベンチマークBで人間を上回るが、同様のベンチマークC、D、Eでは失敗する。
そこで本研究では,データ品質指標DQIの導入により,ベンチマーク品質の定量化を図った新しい手法を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:38:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。