論文の概要: Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark
- arxiv url: http://arxiv.org/abs/2010.07676v1
- Date: Thu, 15 Oct 2020 11:50:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 02:48:55.235578
- Title: Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark
- Title(参考訳): 統合データセットベンチマークに基づく自然言語推論の信頼性評価
- Authors: Guanhua Zhang, Bing Bai, Jian Liang, Kun Bai, Conghui Zhu, Tiejun Zhao
- Abstract要約: クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
- 参考スコア(独自算出の注目度): 54.782397511033345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show that crowd-sourced Natural Language Inference (NLI)
datasets may suffer from significant biases like annotation artifacts. Models
utilizing these superficial clues gain mirage advantages on the in-domain
testing set, which makes the evaluation results over-estimated. The lack of
trustworthy evaluation settings and benchmarks stalls the progress of NLI
research. In this paper, we propose to assess a model's trustworthy
generalization performance with cross-datasets evaluation. We present a new
unified cross-datasets benchmark with 14 NLI datasets, and re-evaluate 9
widely-used neural network-based NLI models as well as 5 recently proposed
debiasing methods for annotation artifacts. Our proposed evaluation scheme and
experimental baselines could provide a basis to inspire future reliable NLI
research.
- Abstract(参考訳): 最近の研究では、クラウドソースの自然言語推論(nli)データセットは、アノテーションアーティファクトのような大きなバイアスを被っている可能性がある。
これらの表面的手がかりを利用したモデルでは、ドメイン内テストセットで見事な利点が得られ、評価結果が過大評価される。
信頼できる評価設定とベンチマークの欠如は、NLI研究の進歩を妨げている。
本稿では,モデルの信頼に値する一般化性能をクロスデータセット評価により評価する。
14のNLIデータセットを備えた新しいクロスデータセットベンチマークを提案し、9つの広く使用されているニューラルネットワークベースのNLIモデルと、5つの最近提案されたアコースティックアーティファクトのデバイアス手法を再評価する。
提案手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
関連論文リスト
- Debias Can be Unreliable: Mitigating Bias Issue in Evaluating Debiasing Recommendation [34.19561411584444]
従来の評価手法は、ランダムに出力されたデータセットには適さない。
本稿では、ランダムに出力されたデータセットの利用を調整し、真のリコール性能を不偏に推定するUnbiased Recall Evaluationスキームを提案する。
論文 参考訳(メタデータ) (2024-09-07T12:42:58Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Unsupervised evaluation of GAN sample quality: Introducing the TTJac
Score [5.1359892878090845]
データフリーで個々の合成画像の忠実度を測定するために「TTJac score」を提案する。
FFHQ, AFHQ-Wild, LSUN-Cars, LSUN-Horseデータセット上でのStyleGAN 2およびStyleGAN 2 ADAモデルに適用した実験結果を示す。
論文 参考訳(メタデータ) (2023-08-31T19:55:50Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - DATa: Domain Adaptation-Aided Deep Table Detection Using Visual-Lexical
Representations [2.542864854772221]
DATaと呼ばれる新しいドメイン適応型ディープテーブル検出手法を提案する。
信頼できるラベルがほとんどない特定のターゲットドメインで十分なパフォーマンスを保証します。
実験の結果,DATaは対象領域における視覚的表現のみを利用する競合手法よりもかなり優れていた。
論文 参考訳(メタデータ) (2022-11-12T12:14:16Z) - Stretching Sentence-pair NLI Models to Reason over Long Documents and
Clusters [35.103851212995046]
自然言語推論(NLI)は,文ペア間の意味的関係を推定するフレームワークとして,NLPコミュニティによって広く研究されている。
我々は、NLIモデルの実アプリケーションへの直接ゼロショット適用性について、訓練された文ペア設定を超えて検討する。
本研究では,ContractNLIデータセット上で,フルドキュメント上で動作し,最先端のパフォーマンスを実現するための新たなアグリゲーション手法を開発した。
論文 参考訳(メタデータ) (2022-04-15T12:56:39Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。