論文の概要: COM2SENSE: A Commonsense Reasoning Benchmark with Complementary
Sentences
- arxiv url: http://arxiv.org/abs/2106.00969v1
- Date: Wed, 2 Jun 2021 06:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:47:53.753247
- Title: COM2SENSE: A Commonsense Reasoning Benchmark with Complementary
Sentences
- Title(参考訳): COM2SENSE: 補完文による常識推論ベンチマーク
- Authors: Shikhar Singh, Nuan Wen, Yu Hou, Pegah Alipoormolabashi, Te-Lin Wu,
Xuezhe Ma, Nanyun Peng
- Abstract要約: 常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題である。
事前訓練された言語モデルの最近の進歩は、いくつかのCommonsenseベンチマークデータセットで有望な結果を示している。
本稿では,自然言語真偽文からなる新しいコモンセンス推論ベンチマークデータセットを提案する。
- 参考スコア(独自算出の注目度): 21.11065466376105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Commonsense reasoning is intuitive for humans but has been a long-term
challenge for artificial intelligence (AI). Recent advancements in pretrained
language models have shown promising results on several commonsense benchmark
datasets. However, the reliability and comprehensiveness of these benchmarks
towards assessing model's commonsense reasoning ability remains unclear. To
this end, we introduce a new commonsense reasoning benchmark dataset comprising
natural language true/false statements, with each sample paired with its
complementary counterpart, resulting in 4k sentence pairs. We propose a
pairwise accuracy metric to reliably measure an agent's ability to perform
commonsense reasoning over a given situation. The dataset is crowdsourced and
enhanced with an adversarial model-in-the-loop setup to incentivize challenging
samples. To facilitate a systematic analysis of commonsense capabilities, we
design our dataset along the dimensions of knowledge domains, reasoning
scenarios and numeracy. Experimental results demonstrate that our strongest
baseline (UnifiedQA-3B), after fine-tuning, achieves ~71% standard accuracy and
~51% pairwise accuracy, well below human performance (~95% for both metrics).
The dataset is available at https://github.com/PlusLabNLP/Com2Sense.
- Abstract(参考訳): 常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題であった。
事前学習された言語モデルの最近の進歩は、いくつかのcommonsenseベンチマークデータセットで有望な結果を示している。
しかし、モデルの常識推論能力を評価するためのこれらのベンチマークの信頼性と包括性はまだ不明である。
この目的のために,自然言語true/false文を含む新しい共通意味推論ベンチマークデータセットを導入し,各サンプルとそれと相補的なサンプルを組み合わせることにより,4k文対を生成する。
エージェントが与えられた状況に対して常識推論を行う能力を確実に測定するためのペアワイズ精度指標を提案する。
データセットはクラウドソースされ、挑戦的なサンプルにインセンティブを与えるために、敵対的なmodel-in-the-loopセットアップで拡張される。
常識能力の体系的分析を容易にするため,知識領域,推論シナリオ,数理性の次元に沿ったデータセットを設計する。
実験結果から,我々の最強のベースライン(UnifiedQA-3B)は,微調整後の標準精度が約71%,対角精度が約51%,人的性能が約95%であった。
データセットはhttps://github.com/PlusLabNLP/Com2Senseで公開されている。
関連論文リスト
- Are LLMs Capable of Data-based Statistical and Causal Reasoning?
Benchmarking Advanced Quantitative Reasoning with Data [94.56126023937233]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴って、411の質問を慎重に構築したデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z) - Advancing Transformer's Capabilities in Commonsense Reasoning [6.5798066703568105]
本稿では,コモンセンス推論のタスクにおいて,汎用の事前学習言語モデルを改善するためのMLに基づく現在の手法を紹介する。
我々の最良のモデルは、Pairwise Accuracyの15%の絶対的なゲインとStandard Accuracyの8.7%の絶対的なゲインによって、これまでの最強の成果を上回ります。
論文 参考訳(メタデータ) (2023-10-10T17:21:03Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Is Synthetic Dataset Reliable for Benchmarking Generalizable Person
Re-Identification? [1.1041211464412568]
最近の大規模合成データセット ClonedPerson は実世界のデータセットと統計的に同じGPReIDのベンチマークに確実に使用できることを示す。
本研究では、ソーストレーニングセットとターゲットテストセットの両方に合成データセットを使用することを保証する。
論文 参考訳(メタデータ) (2022-09-12T06:54:54Z) - Combining human parsing with analytical feature extraction and ranking
schemes for high-generalization person reidentification [0.0]
近年,科学と社会の両面での重要性から,人物再識別(re-ID)が注目されている。
機械学習、特にDeep Learning (DL)は、研究者がベンチマークデータセットで前例のない精度のレベルを達成できるようにする主要なRe-idツールとなっている。
本稿では,高一般化の可能性を示す訓練可能なパラメータを含まないモデルを提案する。
論文 参考訳(メタデータ) (2022-07-28T17:22:48Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。
本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。
実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。
しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文 参考訳(メタデータ) (2020-02-11T11:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。