論文の概要: DMRST: A Joint Framework for Document-Level Multilingual RST Discourse
Segmentation and Parsing
- arxiv url: http://arxiv.org/abs/2110.04518v1
- Date: Sat, 9 Oct 2021 09:15:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 17:09:00.446169
- Title: DMRST: A Joint Framework for Document-Level Multilingual RST Discourse
Segmentation and Parsing
- Title(参考訳): DMRST: 文書レベル多言語RTT談話セグメンテーションと構文解析のための統合フレームワーク
- Authors: Zhengyuan Liu, Ke Shi, Nancy F. Chen
- Abstract要約: 本稿では,EDUセグメンテーションと談話木解析を共同で行う文書レベルの多言語RST談話解析フレームワークを提案する。
本モデルは,すべてのサブタスクにおいて,文書レベルの多言語RST解析における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 24.986030179701405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text discourse parsing weighs importantly in understanding information flow
and argumentative structure in natural language, making it beneficial for
downstream tasks. While previous work significantly improves the performance of
RST discourse parsing, they are not readily applicable to practical use cases:
(1) EDU segmentation is not integrated into most existing tree parsing
frameworks, thus it is not straightforward to apply such models on newly-coming
data. (2) Most parsers cannot be used in multilingual scenarios, because they
are developed only in English. (3) Parsers trained from single-domain treebanks
do not generalize well on out-of-domain inputs. In this work, we propose a
document-level multilingual RST discourse parsing framework, which conducts EDU
segmentation and discourse tree parsing jointly. Moreover, we propose a
cross-translation augmentation strategy to enable the framework to support
multilingual parsing and improve its domain generality. Experimental results
show that our model achieves state-of-the-art performance on document-level
multilingual RST parsing in all sub-tasks.
- Abstract(参考訳): テキストの言説解析は、自然言語における情報の流れや議論的構造を理解する上で重要である。
先行研究はrst談話解析の性能を大幅に向上させるが,(1)eduセグメンテーションは既存のほとんどのツリーパースフレームワークに統合されていないため,新たなデータに適用するのは容易ではない。
2) ほとんどのパーサは英語のみで開発されているため,多言語シナリオでは使用できない。
3) 単ドメインツリーバンクから訓練されたパーサーはドメイン外の入力ではうまく一般化しない。
本研究では,EDUセグメンテーションと談話木解析を共同で行う文書レベルの多言語RST談話解析フレームワークを提案する。
さらに,多言語解析をサポートし,ドメインの汎用性を向上させるためのクロス翻訳拡張戦略を提案する。
実験の結果,本モデルは全てのサブタスクにおいて文書レベルの多言語rst解析において最先端の性能を実現することがわかった。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。
既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。
本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T05:30:48Z) - RST-style Discourse Parsing Guided by Document-level Content Structures [27.28989421841165]
既存のRTT解析パイプラインは、文書レベルのコンテンツ構造を知らずに修辞構造を構築する。
本稿では,構造を意識したニュースコンテンツ文表現を取り入れたRTT-DPのための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2023-09-08T05:50:27Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Cascading and Direct Approaches to Unsupervised Constituency Parsing on
Spoken Sentences [67.37544997614646]
本研究は,教師なし音声補聴における最初の研究である。
目的は, 音声文の階層的構文構造を, 選挙区解析木の形で決定することである。
正確なセグメンテーションだけでは、音声文を正確に解析するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-03-15T17:57:22Z) - Advancing Multilingual Pre-training: TRIP Triangular Document-level
Pre-training for Multilingual Language Models [107.83158521848372]
我々は,従来のモノリンガルおよびバイリンガルの目的を,グラフト法と呼ばれる新しい手法で三言語的目的に加速する分野において,最初のテキストbfTriangular Document-level textbfPre-training(textbfTRIP)を提案する。
TRIPは、3つの多言語文書レベルの機械翻訳ベンチマークと1つの言語間抽象的な要約ベンチマークで、最大3.11d-BLEU点と8.9ROUGE-L点の一貫性のある改善を含む、強力なSOTAスコアを達成している。
論文 参考訳(メタデータ) (2022-12-15T12:14:25Z) - A Simple and Strong Baseline for End-to-End Neural RST-style Discourse
Parsing [44.72809363746258]
本稿では,既存の単純な構文解析手法であるトップダウンとボトムアップと,トランスフォーマーに基づく事前学習言語モデルを統合することで,強力なベースラインを探求する。
2つのベンチマークデータセットから得られた実験結果は、解析性能が解析戦略よりも事前訓練された言語モデルに依存していることを示している。
論文 参考訳(メタデータ) (2022-10-15T18:38:08Z) - LiLT: A Simple yet Effective Language-Independent Layout Transformer for
Structured Document Understanding [33.78249073009646]
構造化文書理解のための単純で効果的な言語非依存型レイアウト変換器(LiLT)を提案する。
LiLTは単一の言語の構造化ドキュメント上で事前訓練され、その後、他の言語で直接微調整される。
8言語の実験結果から、LiLTは様々なダウンストリームベンチマークにおいて、競争力や優れたパフォーマンスを達成可能であることが示されている。
論文 参考訳(メタデータ) (2022-02-28T10:33:01Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - RST Parsing from Scratch [14.548146390081778]
本稿では、RST(Rhetorical Structure Theory)フレームワークにおいて、文書レベルの言論解析の新しいエンドツーエンドの定式化を導入する。
本フレームワークは,会話のセグメンテーションを前提条件として必要とせず,スクラッチからの談話解析を容易にする。
我々の統合構文解析モデルでは、ビームサーチを用いて、最高の木構造を高速な木々の空間を探索することでデコードする。
論文 参考訳(メタデータ) (2021-05-23T06:19:38Z) - Multilingual Neural RST Discourse Parsing [24.986030179701405]
本稿では,多言語ベクトル表現とセグメントレベルの翻訳によるニューラル言語間対話を確立するための2つの手法について検討する。
実験結果から,両手法は訓練データに制限があっても有効であり,言語横断的,文書レベルの談話解析における最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2020-12-03T05:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。