Fugu-MT 論文翻訳(概要): Beyond Leaderboards: A survey of methods for revealing weaknesses in Natural Language Inference data and models

論文の概要: Beyond Leaderboards: A survey of methods for revealing weaknesses in Natural Language Inference data and models

arxiv url: http://arxiv.org/abs/2005.14709v1
Date: Fri, 29 May 2020 17:55:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-26 23:32:50.808083
Title: Beyond Leaderboards: A survey of methods for revealing weaknesses in Natural Language Inference data and models
Title（参考訳）: beyond leaderboards:自然言語推論データとモデルの弱点を明らかにする方法に関する調査
Authors: Viktor Schlegel, Goran Nenadic, Riza Batista-Navarro
Abstract要約: 近年、表面的な手がかりのために自然言語推論(NLI)データセットを分析する論文が増えている。この構造化された調査は、モデルとデータセットの報告された弱点を分類することで、進化する研究領域の概要を提供する。
参考スコア（独自算出の注目度）: 6.998536937701312
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent years have seen a growing number of publications that analyse Natural Language Inference (NLI) datasets for superficial cues, whether they undermine the complexity of the tasks underlying those datasets and how they impact those models that are optimised and evaluated on this data. This structured survey provides an overview of the evolving research area by categorising reported weaknesses in models and datasets and the methods proposed to reveal and alleviate those weaknesses for the English language. We summarise and discuss the findings and conclude with a set of recommendations for possible future research directions. We hope it will be a useful resource for researchers who propose new datasets, to have a set of tools to assess the suitability and quality of their data to evaluate various phenomena of interest, as well as those who develop novel architectures, to further understand the implications of their improvements with respect to their model's acquired capabilities.
Abstract（参考訳）: 近年、自然言語推論(NLI)データセットを表面的な手がかりとして分析する出版物が増えている。これらのデータセットの基盤となるタスクの複雑さを損なうのか、このデータに基づいて最適化され評価されるモデルにどのように影響するか。この構造化された調査は、モデルとデータセットの報告された弱点と、それらの弱点を明らかにし、緩和する手法を分類することで、進化する研究領域の概要を提供する。我々は,研究成果を要約し議論し,今後の研究方向性に関する一連の勧告で結論付ける。新たなデータセットを提案する研究者や、興味のあるさまざまな現象を評価するためのデータの適合性と品質を評価するツールセット、および新しいアーキテクチャを開発する研究者にとって、モデルが獲得した能力に関する改善の影響をさらに理解するための有用なリソースになることを願っている。

関連論文リスト

Datasets for Fairness in Language Models: An In-Depth Survey [8.198294998446867]
本調査では,現在の言語モデル研究において,最も広く用いられている公平性データセットについて検討する。我々は、データセットとスコアリングメソッド間の人口格差の一貫したパターンを明らかにする統一評価フレームワークを導入する。モデルフェアネスに関する結論に影響を与えることがしばしば見過ごされるバイアスを強調し、これらのデータセットを選択し、組み合わせ、解釈するための実践的なガイダンスを提供する。
論文参考訳（メタデータ） (2025-06-29T22:11:58Z)
Unsupervised Data Validation Methods for Efficient Model Training [0.0]
自然言語処理(NLP)、テキスト音声処理(TTS)、音声テキスト処理(STT)、視覚言語モデル(VLM)は大規模なデータセットに大きく依存している。本研究では,「品質データ」の定義,適切なデータ生成方法の開発,モデルトレーニングへのアクセシビリティ向上など,重要な分野について検討する。
論文参考訳（メタデータ） (2024-10-10T13:00:53Z)
PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文参考訳（メタデータ） (2024-09-04T11:19:17Z)
A Survey on Natural Language Counterfactual Generation [7.022371235308068]
自然言語のカウンターファクト生成は、修正されたテキストが別のクラスに分類されるように、与えられたテキストを最小限に修正することを目的としている。生成手法を4つのグループに体系的に分類し、生成品質を評価するための指標を要約する新しい分類法を提案する。
論文参考訳（メタデータ） (2024-07-04T15:13:59Z)
Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文参考訳（メタデータ） (2024-06-20T16:34:07Z)
From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models [98.41645229835493]
グラフ形式のデータの可視化は、データ分析において重要な役割を担い、重要な洞察を提供し、情報的な意思決定を支援する。大規模言語モデルのような大規模な基盤モデルは、様々な自然言語処理タスクに革命をもたらした。本研究は,自然言語処理,コンピュータビジョン,データ解析の分野における研究者や実践者の包括的資源として機能する。
論文参考訳（メタデータ） (2024-03-18T17:57:09Z)
Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey [17.19337964440007]
現在、この研究領域における主要なテクニック、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠如しています。この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。既存の文献の強さ、限界、未探索領域、ギャップを識別し、この重要かつ急速に発展する分野における将来の研究の方向性についていくつかの洞察を提供する。
論文参考訳（メタデータ） (2024-02-27T23:59:01Z)
A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文参考訳（メタデータ） (2024-02-26T18:54:35Z)
A Systematic Review of Data-to-Text NLG [2.4769539696439677]
高品質なテキストを生成する手法を探索し、テキスト生成における幻覚の課題に対処する。テキスト品質の進歩にもかかわらず、このレビューは低リソース言語における研究の重要性を強調している。
論文参考訳（メタデータ） (2024-02-13T14:51:45Z)
Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文参考訳（メタデータ） (2023-12-21T14:20:06Z)
An Empirical Investigation of Commonsense Self-Supervision with Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文参考訳（メタデータ） (2022-05-21T19:49:04Z)
Reliable Evaluations for Natural Language Inference based on a Unified Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。 14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文参考訳（メタデータ） (2020-10-15T11:50:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。