論文の概要: Can Small and Synthetic Benchmarks Drive Modeling Innovation? A
Retrospective Study of Question Answering Modeling Approaches
- arxiv url: http://arxiv.org/abs/2102.01065v1
- Date: Mon, 1 Feb 2021 18:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:45:27.075198
- Title: Can Small and Synthetic Benchmarks Drive Modeling Innovation? A
Retrospective Study of Question Answering Modeling Approaches
- Title(参考訳): 小さくて合成的なベンチマークは、モデリングのイノベーションを駆動できますか?
質問応答モデリング手法のふりかえり的研究
- Authors: Nelson F. Liu and Tony Lee and Robin Jia and Percy Liang
- Abstract要約: 既存の32のベンチマークと合成ベンチマークがSQuADとどのように一致しているかを考察する。
我々は、自然言語に似ていない小さな、ターゲットの合成ベンチマークを構築した。
この結果から,小型かつ慎重に設計された合成ベンチマークが新たなモデリング手法の開発に有用である可能性が示唆された。
- 参考スコア(独自算出の注目度): 70.70352722921719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Datasets are not only resources for training accurate, deployable systems,
but are also benchmarks for developing new modeling approaches. While large,
natural datasets are necessary for training accurate systems, are they
necessary for driving modeling innovation? For example, while the popular SQuAD
question answering benchmark has driven the development of new modeling
approaches, could synthetic or smaller benchmarks have led to similar
innovations?
This counterfactual question is impossible to answer, but we can study a
necessary condition: the ability for a benchmark to recapitulate findings made
on SQuAD. We conduct a retrospective study of 20 SQuAD modeling approaches,
investigating how well 32 existing and synthesized benchmarks concur with SQuAD
-- i.e., do they rank the approaches similarly? We carefully construct small,
targeted synthetic benchmarks that do not resemble natural language, yet have
high concurrence with SQuAD, demonstrating that naturalness and size are not
necessary for reflecting historical modeling improvements on SQuAD. Our results
raise the intriguing possibility that small and carefully designed synthetic
benchmarks may be useful for driving the development of new modeling
approaches.
- Abstract(参考訳): データセットは、正確でデプロイ可能なシステムのトレーニングのためのリソースであるだけでなく、新しいモデリングアプローチを開発するためのベンチマークでもある。
正確なシステムのトレーニングには大規模で自然なデータセットが必要ですが、モデリングの革新を促進するには必要でしょうか?
例えば、人気のあるsunity question answering benchmarkは、新しいモデリングアプローチの開発につながったが、シンセサイザーや小さなベンチマークが同様のイノベーションに繋がる可能性がある。
この反現実的な質問は答えられないが、我々は必要条件、すなわちベンチマークがSQuAD上で行った発見を再カプセル化できる能力について研究することができる。
我々は20のSQuADモデリングアプローチの振り返り調査を行い、32の既存および合成ベンチマークがSQuADとどのように一致しているかを調査する。
我々は,SQuADに類似しないが,SQuADとの精度が高く,SQuADの歴史的モデリング改善を反映するためには,自然性やサイズは必要ないことを実証した,小型でターゲットの合成ベンチマークを慎重に構築する。
この結果から,小型かつ慎重に設計された合成ベンチマークが新たなモデリング手法の開発に有用である可能性が示唆された。
関連論文リスト
- BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare [99.57567498494448]
我々はLMMに基づくノン参照IQAモデルであるCompare2Scoreを紹介する。
トレーニング中、同じIQAデータセットの画像を比較することで、スケールアップ比較命令を生成する。
9つのIQAデータセットの実験により、Compare2Scoreは、トレーニング中にテキスト定義の比較レベルを効果的にブリッジすることを確認した。
論文 参考訳(メタデータ) (2024-05-29T17:26:09Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - A Theoretically Grounded Benchmark for Evaluating Machine Commonsense [6.725087407394836]
理論的に答えるコモンセンス推論(TG-CSR)は差別的な質問応答に基づいているが、コモンセンスの多様な側面を評価するために設計された。
TG-CSRは、ゴードンとホッブズによるコモンセンスの実行可能な理論として最初に提案されたコモンセンス圏のサブセットに基づいている。
予備的な結果は、このベンチマークが差別的なCSR質問応答タスクのために設計された高度な言語表現モデルに対してさえ挑戦的であることを示唆している。
論文 参考訳(メタデータ) (2022-03-23T04:06:01Z) - How not to Lie with a Benchmark: Rearranging NLP Leaderboards [0.0]
一般的なNLPベンチマークの総合評価手法について検討し、幾何平均と調和平均でモデルを並べ替える。
我々は、GLUE、SuperGLUE、XGLUE、XTREMEなどの人気のあるベンチマークを分析した。
論文 参考訳(メタデータ) (2021-12-02T15:40:52Z) - DQI: A Guide to Benchmark Evaluation [22.54066527822898]
モデルAは、ベンチマークBで人間を上回るが、同様のベンチマークC、D、Eでは失敗する。
そこで本研究では,データ品質指標DQIの導入により,ベンチマーク品質の定量化を図った新しい手法を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:38:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。