論文の概要: MEGA RST Discourse Treebanks with Structure and Nuclearity from Scalable
Distant Sentiment Supervision
- arxiv url: http://arxiv.org/abs/2011.03017v1
- Date: Thu, 5 Nov 2020 18:22:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 11:56:34.554131
- Title: MEGA RST Discourse Treebanks with Structure and Nuclearity from Scalable
Distant Sentiment Supervision
- Title(参考訳): スケーラブルディスタントセンチメントスーパービジョンによる構造と核性を有するMEGA RSTツリーバンク
- Authors: Patrick Huber and Giuseppe Carenini
- Abstract要約: 本稿では,感情アノテートされたデータセットから遠方からの監視を用いて,談話木バンクを自動的に生成する新しい手法を提案する。
提案手法は,効率的なビーム探索手法を用いて,任意の長さの文書に構造と核性を取り入れた木を生成する。
実験により、MEGA-DTツリーバンクでトレーニングされた談話が、ドメイン間パフォーマンスの有望な向上をもたらすことが示された。
- 参考スコア(独自算出の注目度): 30.615883375573432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lack of large and diverse discourse treebanks hinders the application of
data-driven approaches, such as deep-learning, to RST-style discourse parsing.
In this work, we present a novel scalable methodology to automatically generate
discourse treebanks using distant supervision from sentiment-annotated
datasets, creating and publishing MEGA-DT, a new large-scale
discourse-annotated corpus. Our approach generates discourse trees
incorporating structure and nuclearity for documents of arbitrary length by
relying on an efficient heuristic beam-search strategy, extended with a
stochastic component. Experiments on multiple datasets indicate that a
discourse parser trained on our MEGA-DT treebank delivers promising
inter-domain performance gains when compared to parsers trained on
human-annotated discourse corpora.
- Abstract(参考訳): 大規模で多様な談話木バンクの欠如は、深層学習のようなデータ駆動型アプローチをRTTスタイルの談話解析に適用することを妨げる。
本研究では,感情アノテートされたデータセットから遠ざかって,対話木バンクを自動生成するスケーラブルな手法を提案し,大規模談話アノテートコーパスであるMEGA-DTを作成し,公開する。
提案手法は, 任意の長さの文書に構造と核性を取り入れた談話木を, 確率成分で拡張した効率的なヒューリスティックビーム探索戦略に頼って生成する。
複数のデータセットにおける実験は、mega-dt treebankでトレーニングされた談話パーサが、人間の注釈付き談話コーパスでトレーニングされたパーサーと比較して、ドメイン間パフォーマンスの向上を期待できることを示している。
関連論文リスト
- Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Topic-driven Distant Supervision Framework for Macro-level Discourse
Parsing [72.14449502499535]
テキストの内部修辞構造を解析する作業は、自然言語処理において難しい問題である。
近年のニューラルモデルの発展にもかかわらず、トレーニングのための大規模で高品質なコーパスの欠如は大きな障害となっている。
近年の研究では、遠方の監督を用いてこの制限を克服しようと試みている。
論文 参考訳(メタデータ) (2023-05-23T07:13:51Z) - LongFNT: Long-form Speech Recognition with Factorized Neural Transducer [64.75547712366784]
文レベルの長文特徴を語彙予測器の出力と直接融合するLongFNT-Textアーキテクチャを提案する。
また,LongFNT法の有効性を,相対単語誤り率(WER)が19%,GigaSpeechコーパスが12%,LongFNT法が19%であった。
論文 参考訳(メタデータ) (2022-11-17T08:48:27Z) - Large Discourse Treebanks from Scalable Distant Supervision [30.615883375573432]
本稿では,感情分析の補助的課題に対する遠隔監視から「銀標準」談話木を生成する枠組みを提案する。
銀標準」の談話木は、より大きく、より多様性があり、ドメインに依存しないデータセットで訓練されている。
論文 参考訳(メタデータ) (2022-10-18T03:33:43Z) - Predicting Above-Sentence Discourse Structure using Distant Supervision
from Topic Segmentation [8.688675709130289]
RSTスタイルの談話解析は多くのNLPタスクにおいて重要な役割を担っている。
その重要性にもかかわらず、現代の談話解析における最も一般的な制限の1つは、大規模なデータセットの欠如である。
論文 参考訳(メタデータ) (2021-12-12T10:16:45Z) - Unsupervised Learning of Discourse Structures using a Tree Autoencoder [8.005512864082126]
本研究では, 自動符号化目的による潜在木誘導フレームワークを拡張することにより, タスクに依存しない, 監視されていない方法で木構造を生成する新しい戦略を提案する。
提案されたアプローチは、構文解析、談話解析など、任意のツリー目的に適用することができる。
本稿では,複数の領域における自然文の一般的な木構造を推定し,様々なタスクで有望な結果を示す。
論文 参考訳(メタデータ) (2020-12-17T08:40:34Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Unleashing the Power of Neural Discourse Parsers -- A Context and
Structure Aware Approach Using Large Scale Pretraining [26.517219486173598]
RSTに基づく談話解析は、要約、機械翻訳、意見マイニングなど、多くの下流アプリケーションにおいて重要なNLPタスクである。
本稿では,近年の文脈言語モデルを取り入れた,シンプルかつ高精度な談話解析について述べる。
RST-DTとInstr-DTの2つの主要なRTTデータセットにおける構造と核性を予測するための新しい最先端(SOTA)性能を確立する。
論文 参考訳(メタデータ) (2020-11-06T06:11:26Z) - From Sentiment Annotations to Sentiment Prediction through Discourse
Augmentation [30.615883375573432]
本稿では,感情分析の課題にタスク関連談話を利用する新しい枠組みを提案する。
具体的には、大規模で感情に依存したMEGA-DTツリーバンクと、感情予測のための新しいニューラルアーキテクチャを組み合わせています。
実験により,感情関連談話拡張を用いた感情予測により,長期文書の全体的な性能が向上することが確認された。
論文 参考訳(メタデータ) (2020-11-05T18:28:13Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - A Hierarchical Network for Abstractive Meeting Summarization with
Cross-Domain Pretraining [52.11221075687124]
本稿では,会議シナリオに適応する抽象的要約ネットワークを提案する。
提案手法は,長時間の会議記録に対応する階層構造と,話者間の差異を表現する役割ベクトルを設計する。
我々のモデルは、自動測定と人的評価の両方において、過去のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-04-04T21:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。