論文の概要: Beyond Leaderboards: A survey of methods for revealing weaknesses in
Natural Language Inference data and models
- arxiv url: http://arxiv.org/abs/2005.14709v1
- Date: Fri, 29 May 2020 17:55:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 23:32:50.808083
- Title: Beyond Leaderboards: A survey of methods for revealing weaknesses in
Natural Language Inference data and models
- Title(参考訳): beyond leaderboards:自然言語推論データとモデルの弱点を明らかにする方法に関する調査
- Authors: Viktor Schlegel, Goran Nenadic, Riza Batista-Navarro
- Abstract要約: 近年、表面的な手がかりのために自然言語推論(NLI)データセットを分析する論文が増えている。
この構造化された調査は、モデルとデータセットの報告された弱点を分類することで、進化する研究領域の概要を提供する。
- 参考スコア(独自算出の注目度): 6.998536937701312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen a growing number of publications that analyse Natural
Language Inference (NLI) datasets for superficial cues, whether they undermine
the complexity of the tasks underlying those datasets and how they impact those
models that are optimised and evaluated on this data. This structured survey
provides an overview of the evolving research area by categorising reported
weaknesses in models and datasets and the methods proposed to reveal and
alleviate those weaknesses for the English language. We summarise and discuss
the findings and conclude with a set of recommendations for possible future
research directions. We hope it will be a useful resource for researchers who
propose new datasets, to have a set of tools to assess the suitability and
quality of their data to evaluate various phenomena of interest, as well as
those who develop novel architectures, to further understand the implications
of their improvements with respect to their model's acquired capabilities.
- Abstract(参考訳): 近年、自然言語推論(NLI)データセットを表面的な手がかりとして分析する出版物が増えている。これらのデータセットの基盤となるタスクの複雑さを損なうのか、このデータに基づいて最適化され評価されるモデルにどのように影響するか。
この構造化された調査は、モデルとデータセットの報告された弱点と、それらの弱点を明らかにし、緩和する手法を分類することで、進化する研究領域の概要を提供する。
我々は,研究成果を要約し議論し,今後の研究方向性に関する一連の勧告で結論付ける。
新たなデータセットを提案する研究者や、興味のあるさまざまな現象を評価するためのデータの適合性と品質を評価するツールセット、および新しいアーキテクチャを開発する研究者にとって、モデルが獲得した能力に関する改善の影響をさらに理解するための有用なリソースになることを願っている。
関連論文リスト
- Wiki-TabNER:Advancing Table Interpretation Through Named Entity
Recognition [19.423556742293762]
TIタスクの評価に広く用いられているベンチマークデータセットを分析した。
この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。
本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and
Understanding -- A Survey [17.765458116029734]
現在、この研究領域における主要なテクニック、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠如しています。
この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。
既存の文献の強さ、限界、未探索領域、ギャップを識別し、この重要かつ急速に発展する分野における将来の研究の方向性についていくつかの洞察を提供する。
論文 参考訳(メタデータ) (2024-02-27T23:59:01Z) - A Survey on Data Selection for Language Models [151.6210632830082]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - A Systematic Review of Data-to-Text NLG [2.4769539696439677]
高品質なテキストを生成する手法を探索し、テキスト生成における幻覚の課題に対処する。
テキスト品質の進歩にもかかわらず、このレビューは低リソース言語における研究の重要性を強調している。
論文 参考訳(メタデータ) (2024-02-13T14:51:45Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study
on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文 参考訳(メタデータ) (2023-06-23T15:15:13Z) - A Comprehensive Survey on Generative Diffusion Models for Structured
Data [0.0]
生成拡散モデルは 深層生成モデルにおいて 急激なパラダイムシフトを達成しました
構造化データは、ディープラーニング研究コミュニティから比較的限られた注目を集めている。
このレビューは、構造化データの生成拡散モデルの発展を促進する研究コミュニティの触媒となる。
論文 参考訳(メタデータ) (2023-06-07T04:26:41Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。