論文の概要: Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling
- arxiv url: http://arxiv.org/abs/2307.08074v2
- Date: Sat, 22 Jul 2023 00:11:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 20:06:27.115955
- Title: Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling
- Title(参考訳): disco-bench: 言語モデリングのための談話認識評価ベンチマーク
- Authors: Longyue Wang, Zefeng Du, Donghuai Liu, Deng Cai, Dian Yu, Haiyun
Jiang, Yan Wang, Leyang Cui, Shuming Shi, Zhaopeng Tu
- Abstract要約: 本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
- 参考スコア(独自算出の注目度): 70.23876429382969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling discourse -- the linguistic phenomena that go beyond individual
sentences, is a fundamental yet challenging aspect of natural language
processing (NLP). However, existing evaluation benchmarks primarily focus on
the evaluation of inter-sentence properties and overlook critical discourse
phenomena that cross sentences. To bridge the gap, we propose Disco-Bench, a
benchmark that can evaluate intra-sentence discourse properties across a
diverse set of NLP tasks, covering understanding, translation, and generation.
Disco-Bench consists of 9 document-level testsets in the literature domain,
which contain rich discourse phenomena (e.g. cohesion and coherence) in Chinese
and/or English. For linguistic analysis, we also design a diagnostic test suite
that can examine whether the target models learn discourse knowledge. We
totally evaluate 20 general-, in-domain and commercial models based on
Transformer, advanced pretraining architectures and large language models
(LLMs). Our results show (1) the challenge and necessity of our evaluation
benchmark; (2) fine-grained pretraining based on literary document-level
training data consistently improves the modeling of discourse information. We
will release the datasets, pretrained models, and leaderboard, which we hope
can significantly facilitate research in this field:
https://github.com/longyuewangdcu/Disco-Bench.
- Abstract(参考訳): 談話のモデル化 - 個々の文を超えた言語現象は、自然言語処理(NLP)の基本的かつ挑戦的な側面である。
しかし、既存の評価ベンチマークは主に文間特性の評価に焦点が当てられ、文章を横断する批判的な談話現象を見落としている。
このギャップを埋めるため,多種多様なNLPタスクを対象とし,理解,翻訳,生成を網羅した文内談話特性の評価が可能なベンチマークであるDisco-Benchを提案する。
disco-benchは文学領域の9つの文書レベルのテストセットで構成されており、中国語と英語の豊富な談話現象(例えば、コヒーレンスとコヒーレンス)を含んでいる。
言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートも設計する。
我々は、Transformer、高度な事前学習アーキテクチャ、大規模言語モデル(LLM)に基づいて、20の汎用、ドメイン内および商用モデルを評価する。
その結果,(1)評価ベンチマークの課題と必要性,(2)文章レベルのトレーニングデータに基づくきめ細かい事前学習は,談話情報のモデリングを一貫して改善していることがわかった。
私たちはデータセット、事前トレーニングされたモデル、そしてleaderboardをリリースします。この分野の研究を著しく促進できることを願っています。 https://github.com/longyuewangdcu/disco-bench。
関連論文リスト
- Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。
この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文 参考訳(メタデータ) (2022-04-13T10:32:03Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - The Rediscovery Hypothesis: Language Models Need to Meet Linguistics [8.293055016429863]
現代言語モデルの性能向上に言語知識が必須条件であるかどうかを検討する。
その結果, 言語構造を探索した場合, かなり圧縮されるが, 事前学習目的によく適合する言語モデルは, 良好なスコアを保っていることがわかった。
この結果は再発見仮説を支持し,本論文の第2の貢献である言語モデル目標と言語情報との関連性に関する情報論的枠組みを導出する。
論文 参考訳(メタデータ) (2021-03-02T15:57:39Z) - Learning Spoken Language Representations with Neural Lattice Language
Modeling [39.50831917042577]
本稿では,音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。
提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。
論文 参考訳(メタデータ) (2020-07-06T10:38:03Z) - Labeling Explicit Discourse Relations using Pre-trained Language Models [0.0]
最先端のモデルは手作りの機能を使ってFスコアの45%をわずかに上回っている。
事前訓練された言語モデルは、微調整された場合、言語的特徴を置き換えるのに十分強力であることがわかった。
言語的な特徴を使わずに、モデルが知識集約型モデルより優れているのは、これが初めてである。
論文 参考訳(メタデータ) (2020-06-21T17:18:01Z) - An Empirical Investigation of Pre-Trained Transformer Language Models
for Open-Domain Dialogue Generation [23.343006562849126]
本稿では,オープンドメイン対話生成作業のための事前学習型トランスフォーマーに基づく自動回帰言語モデルについて実験的に検討する。
事前訓練と微調整の訓練パラダイムは、学習を行うために使用される。
実験は、Weibo、Douban、Reddit、DailyDialog、Persona-Chatといった典型的なシングルターンとマルチターンの対話コーパスで行われる。
論文 参考訳(メタデータ) (2020-03-09T15:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。