論文の概要: Can Small and Synthetic Benchmarks Drive Modeling Innovation? A
Retrospective Study of Question Answering Modeling Approaches
- arxiv url: http://arxiv.org/abs/2102.01065v1
- Date: Mon, 1 Feb 2021 18:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:45:27.075198
- Title: Can Small and Synthetic Benchmarks Drive Modeling Innovation? A
Retrospective Study of Question Answering Modeling Approaches
- Title(参考訳): 小さくて合成的なベンチマークは、モデリングのイノベーションを駆動できますか?
質問応答モデリング手法のふりかえり的研究
- Authors: Nelson F. Liu and Tony Lee and Robin Jia and Percy Liang
- Abstract要約: 既存の32のベンチマークと合成ベンチマークがSQuADとどのように一致しているかを考察する。
我々は、自然言語に似ていない小さな、ターゲットの合成ベンチマークを構築した。
この結果から,小型かつ慎重に設計された合成ベンチマークが新たなモデリング手法の開発に有用である可能性が示唆された。
- 参考スコア(独自算出の注目度): 70.70352722921719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Datasets are not only resources for training accurate, deployable systems,
but are also benchmarks for developing new modeling approaches. While large,
natural datasets are necessary for training accurate systems, are they
necessary for driving modeling innovation? For example, while the popular SQuAD
question answering benchmark has driven the development of new modeling
approaches, could synthetic or smaller benchmarks have led to similar
innovations?
This counterfactual question is impossible to answer, but we can study a
necessary condition: the ability for a benchmark to recapitulate findings made
on SQuAD. We conduct a retrospective study of 20 SQuAD modeling approaches,
investigating how well 32 existing and synthesized benchmarks concur with SQuAD
-- i.e., do they rank the approaches similarly? We carefully construct small,
targeted synthetic benchmarks that do not resemble natural language, yet have
high concurrence with SQuAD, demonstrating that naturalness and size are not
necessary for reflecting historical modeling improvements on SQuAD. Our results
raise the intriguing possibility that small and carefully designed synthetic
benchmarks may be useful for driving the development of new modeling
approaches.
- Abstract(参考訳): データセットは、正確でデプロイ可能なシステムのトレーニングのためのリソースであるだけでなく、新しいモデリングアプローチを開発するためのベンチマークでもある。
正確なシステムのトレーニングには大規模で自然なデータセットが必要ですが、モデリングの革新を促進するには必要でしょうか?
例えば、人気のあるsunity question answering benchmarkは、新しいモデリングアプローチの開発につながったが、シンセサイザーや小さなベンチマークが同様のイノベーションに繋がる可能性がある。
この反現実的な質問は答えられないが、我々は必要条件、すなわちベンチマークがSQuAD上で行った発見を再カプセル化できる能力について研究することができる。
我々は20のSQuADモデリングアプローチの振り返り調査を行い、32の既存および合成ベンチマークがSQuADとどのように一致しているかを調査する。
我々は,SQuADに類似しないが,SQuADとの精度が高く,SQuADの歴史的モデリング改善を反映するためには,自然性やサイズは必要ないことを実証した,小型でターゲットの合成ベンチマークを慎重に構築する。
この結果から,小型かつ慎重に設計された合成ベンチマークが新たなモデリング手法の開発に有用である可能性が示唆された。
関連論文リスト
- Evaluation of Categorical Generative Models -- Bridging the Gap Between
Real and Synthetic Data [18.142397311464343]
生成モデルに対する適切な拡張性の評価手法を提案する。
我々は、より困難なモデリングタスクに対応する、ますます大きな確率空間を考える。
我々は, 合成生成モデルと最先端のカテゴリー生成モデルの両方について, 合成実験により評価方法を検証する。
論文 参考訳(メタデータ) (2022-10-28T21:05:25Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - StreamingQA: A Benchmark for Adaptation to New Knowledge over Time in
Question Answering Models [31.43391633383255]
提案する大規模データセットであるStreamingQAを構築した。
プレトレーニングでは見られない新しい記事を読むことで、四半期毎にモデルを評価します。
我々は,大惨な忘れを回避しつつ,パラメトリックモデルをフルリトレーニングなしで更新可能であることを示す。
論文 参考訳(メタデータ) (2022-05-23T15:33:41Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Measuring and Reducing Model Update Regression in Structured Prediction
for NLP [31.86240946966003]
後方互換性は、新しいモデルが前者によって正しく処理されたケースに回帰しないことを要求する。
本研究は、構造化予測タスクにおける更新回帰をモデル化する。
本稿では,構造化出力の特性を考慮し,単純かつ効果的なバックワード・コングルエント・リグレード(BCR)を提案する。
論文 参考訳(メタデータ) (2022-02-07T07:04:54Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。
我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-26T11:32:27Z) - Smaller World Models for Reinforcement Learning [0.5156484100374059]
ベクトル量子化変分オートエンコーダ(VQ-VAE)に基づく世界モデルのための新しいニューラルネットワークアーキテクチャを提案する。
モデルフリーPPOエージェントは、世界モデルからのシミュレーション体験に基づいて純粋に訓練される。
我々はSimPLeアルゴリズムに匹敵する性能を示したが、我々のモデルははるかに小さい。
論文 参考訳(メタデータ) (2020-10-12T15:02:41Z) - Probabilistic Case-based Reasoning for Open-World Knowledge Graph
Completion [59.549664231655726]
ケースベース推論(CBR)システムは,与えられた問題に類似した事例を検索することで,新たな問題を解決する。
本稿では,知識ベース(KB)の推論において,そのようなシステムが実現可能であることを示す。
提案手法は,KB内の類似エンティティからの推論パスを収集することにより,エンティティの属性を予測する。
論文 参考訳(メタデータ) (2020-10-07T17:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。