論文の概要: Beyond Leaderboards: A survey of methods for revealing weaknesses in
Natural Language Inference data and models
- arxiv url: http://arxiv.org/abs/2005.14709v1
- Date: Fri, 29 May 2020 17:55:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 23:32:50.808083
- Title: Beyond Leaderboards: A survey of methods for revealing weaknesses in
Natural Language Inference data and models
- Title(参考訳): beyond leaderboards:自然言語推論データとモデルの弱点を明らかにする方法に関する調査
- Authors: Viktor Schlegel, Goran Nenadic, Riza Batista-Navarro
- Abstract要約: 近年、表面的な手がかりのために自然言語推論(NLI)データセットを分析する論文が増えている。
この構造化された調査は、モデルとデータセットの報告された弱点を分類することで、進化する研究領域の概要を提供する。
- 参考スコア(独自算出の注目度): 6.998536937701312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen a growing number of publications that analyse Natural
Language Inference (NLI) datasets for superficial cues, whether they undermine
the complexity of the tasks underlying those datasets and how they impact those
models that are optimised and evaluated on this data. This structured survey
provides an overview of the evolving research area by categorising reported
weaknesses in models and datasets and the methods proposed to reveal and
alleviate those weaknesses for the English language. We summarise and discuss
the findings and conclude with a set of recommendations for possible future
research directions. We hope it will be a useful resource for researchers who
propose new datasets, to have a set of tools to assess the suitability and
quality of their data to evaluate various phenomena of interest, as well as
those who develop novel architectures, to further understand the implications
of their improvements with respect to their model's acquired capabilities.
- Abstract(参考訳): 近年、自然言語推論(NLI)データセットを表面的な手がかりとして分析する出版物が増えている。これらのデータセットの基盤となるタスクの複雑さを損なうのか、このデータに基づいて最適化され評価されるモデルにどのように影響するか。
この構造化された調査は、モデルとデータセットの報告された弱点と、それらの弱点を明らかにし、緩和する手法を分類することで、進化する研究領域の概要を提供する。
我々は,研究成果を要約し議論し,今後の研究方向性に関する一連の勧告で結論付ける。
新たなデータセットを提案する研究者や、興味のあるさまざまな現象を評価するためのデータの適合性と品質を評価するツールセット、および新しいアーキテクチャを開発する研究者にとって、モデルが獲得した能力に関する改善の影響をさらに理解するための有用なリソースになることを願っている。
関連論文リスト
- Unsupervised Data Validation Methods for Efficient Model Training [0.0]
自然言語処理(NLP)、テキスト音声処理(TTS)、音声テキスト処理(STT)、視覚言語モデル(VLM)は大規模なデータセットに大きく依存している。
本研究では,「品質データ」の定義,適切なデータ生成方法の開発,モデルトレーニングへのアクセシビリティ向上など,重要な分野について検討する。
論文 参考訳(メタデータ) (2024-10-10T13:00:53Z) - PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - A Survey on Natural Language Counterfactual Generation [7.022371235308068]
自然言語のカウンターファクト生成は、修正されたテキストが別のクラスに分類されるように、与えられたテキストを最小限に修正することを目的としている。
生成手法を4つのグループに体系的に分類し、生成品質を評価するための指標を要約する新しい分類法を提案する。
論文 参考訳(メタデータ) (2024-07-04T15:13:59Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models [98.41645229835493]
グラフ形式のデータの可視化は、データ分析において重要な役割を担い、重要な洞察を提供し、情報的な意思決定を支援する。
大規模言語モデルのような大規模な基盤モデルは、様々な自然言語処理タスクに革命をもたらした。
本研究は,自然言語処理,コンピュータビジョン,データ解析の分野における研究者や実践者の包括的資源として機能する。
論文 参考訳(メタデータ) (2024-03-18T17:57:09Z) - Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey [17.19337964440007]
現在、この研究領域における主要なテクニック、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠如しています。
この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。
既存の文献の強さ、限界、未探索領域、ギャップを識別し、この重要かつ急速に発展する分野における将来の研究の方向性についていくつかの洞察を提供する。
論文 参考訳(メタデータ) (2024-02-27T23:59:01Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - A Systematic Review of Data-to-Text NLG [2.4769539696439677]
高品質なテキストを生成する手法を探索し、テキスト生成における幻覚の課題に対処する。
テキスト品質の進歩にもかかわらず、このレビューは低リソース言語における研究の重要性を強調している。
論文 参考訳(メタデータ) (2024-02-13T14:51:45Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。