論文の概要: GDTB: Genre Diverse Data for English Shallow Discourse Parsing across Modalities, Text Types, and Domains
- arxiv url: http://arxiv.org/abs/2411.00491v1
- Date: Fri, 01 Nov 2024 10:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:48:15.002972
- Title: GDTB: Genre Diverse Data for English Shallow Discourse Parsing across Modalities, Text Types, and Domains
- Title(参考訳): GDTB:モーダリティ、テキストタイプ、ドメインにまたがる英語浅層談話解析のためのゲンレディバースデータ
- Authors: Yang Janet Liu, Tatsuya Aoyama, Wesley Scivetti, Yilun Zhu, Shabnam Behzad, Lauren Elizabeth Levine, Jessica Lin, Devika Tiwari, Amir Zeldes,
- Abstract要約: 既存のUD 英語 GUM コーパスに基づいて,PDTB スタイルの浅層談話構文解析のための新しいベンチマークを提示し,評価した。
ドメイン間関係分類に関する一連の実験において、我々のデータセットはPDTBと互換性があるが、領域外劣化は観測されている。
- 参考スコア(独自算出の注目度): 13.598485056526771
- License:
- Abstract: Work on shallow discourse parsing in English has focused on the Wall Street Journal corpus, the only large-scale dataset for the language in the PDTB framework. However, the data is not openly available, is restricted to the news domain, and is by now 35 years old. In this paper, we present and evaluate a new open-access, multi-genre benchmark for PDTB-style shallow discourse parsing, based on the existing UD English GUM corpus, for which discourse relation annotations in other frameworks already exist. In a series of experiments on cross-domain relation classification, we show that while our dataset is compatible with PDTB, substantial out-of-domain degradation is observed, which can be alleviated by joint training on both datasets.
- Abstract(参考訳): 英語の浅い言論解析の研究は、PDTBフレームワークにおける言語のための唯一の大規模データセットであるウォール・ストリート・ジャーナル・コーパスに焦点を当てている。
しかし、データは公開されておらず、ニュースドメインに限定されており、現在35歳である。
本稿では,既存の UD English GUM コーパスに基づいて,PDTB スタイルの浅層談話構文解析のための新しいオープンアクセス型マルチジャンルベンチマークを提案し,評価する。
ドメイン間の関係分類に関する一連の実験において、我々のデータセットはPDTBと互換性があるが、ドメイン外劣化は観測され、両方のデータセットの協調トレーニングによって緩和される。
関連論文リスト
- AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing [82.33075210051129]
AceParseは構造化テキストのパースをサポートするために設計された最初の包括的なデータセットである。
AceParseに基づいて、さまざまな構造化テキストを正確に解析するマルチモーダルモデルAceを微調整した。
このモデルは、F1スコアで4.1%、ジャカルド類似度で5%、以前の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T06:06:34Z) - Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。
既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。
本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T05:30:48Z) - SentiGOLD: A Large Bangla Gold Standard Multi-Domain Sentiment Analysis
Dataset and its Evaluation [0.9894420655516565]
センティゴルドはバングラデシュ政府とバングラデシュ言語委員会によって合意された、確立された言語慣習に準拠している。
このデータセットには、オンラインビデオコメント、ソーシャルメディア投稿、ブログ、ニュース、その他のソースからのデータが含まれている。
上位モデルは5つのクラスで0.62(イントラデータセット)のマクロf1スコアを獲得し、ベンチマークを設定し、3つのクラスで0.61(SentNoBのクロスデータセット)を得る。
論文 参考訳(メタデータ) (2023-06-09T12:07:10Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - Improving Retrieval Augmented Neural Machine Translation by Controlling
Source and Fuzzy-Match Interactions [15.845071122977158]
本稿では,トップkのドメイン内ファジィマッチングが元文に現れるRAT(Retrieval Augmented Translation)のアイデアに基づいて構築する。
本稿では,ソース文とトップkファジィなターゲット言語マッチング間のインタラクションを制御する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-10T23:33:15Z) - WDV: A Broad Data Verbalisation Dataset Built from Wikidata [5.161088104035106]
言語知識グラフ(英語: Verbalising Knowledge Graph, KG)は、主語、述語、および対象からなる相互接続された三元的クレームをテキストに変換することに焦点を当てたデータである。
ウィキデータから構築された大規模なKGクレーム言語化データセットであるWDVを提案する。
また,人間中心の流速と精度を計測する再利用可能なワークフローを通じて,発話の質を評価する。
論文 参考訳(メタデータ) (2022-05-05T13:10:12Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Linguistic Cues of Deception in a Multilingual April Fools' Day Context [0.8487852486413651]
ダイアクロニックAFDとギリシャの新聞やニュースサイトからの通常の記事を含むコーパスを紹介する。
我々は、豊富な言語機能セットを構築し、その偽りの手がかりを分析し、現在利用可能な唯一のAFDコレクションと比較する。
論文 参考訳(メタデータ) (2021-11-06T16:28:12Z) - DocNLI: A Large-scale Dataset for Document-level Natural Language
Inference [55.868482696821815]
自然言語推論(NLI)は、様々なNLP問題を解決するための統一的なフレームワークとして定式化されている。
ドキュメントレベルのNLI用に新たに構築された大規模データセットであるDocNLIを紹介する。
論文 参考訳(メタデータ) (2021-06-17T13:02:26Z) - AUGVIC: Exploiting BiText Vicinity for Low-Resource NMT [9.797319790710711]
AUGVICは低リソースNMTのための新しいデータ拡張フレームワークである。
余分なモノリンガルデータを明示的に使用せずに、与えられたbitextのヴィジナルサンプルを利用する。
AUGVICは、従来のバックトランスレーションにおいて、関連ドメインと遠隔ドメインのモノリンガルデータの相違を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-06-09T15:29:18Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。