論文の概要: Domain Adaptation in Multilingual and Multi-Domain Monolingual Settings
for Complex Word Identification
- arxiv url: http://arxiv.org/abs/2205.07283v1
- Date: Sun, 15 May 2022 13:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 15:48:50.392035
- Title: Domain Adaptation in Multilingual and Multi-Domain Monolingual Settings
for Complex Word Identification
- Title(参考訳): 複合単語識別のための多言語・多言語単言語設定におけるドメイン適応
- Authors: George-Eduard Zaharia, R\u{a}zvan-Alexandru Sm\u{a}du,
Dumitru-Clementin Cercel, Mihai Dascalu
- Abstract要約: 複雑な単語識別(CWI)は、適切なテキストの単純化に向けた基礎的なプロセスである。
CWIはコンテキストに大きく依存するが、その困難さは利用可能なデータセットの不足によって増大する。
対象文字とコンテキスト表現を改善するために,ドメイン適応に基づくCWIタスクのための新しいトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 0.27998963147546146
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Complex word identification (CWI) is a cornerstone process towards proper
text simplification. CWI is highly dependent on context, whereas its difficulty
is augmented by the scarcity of available datasets which vary greatly in terms
of domains and languages. As such, it becomes increasingly more difficult to
develop a robust model that generalizes across a wide array of input examples.
In this paper, we propose a novel training technique for the CWI task based on
domain adaptation to improve the target character and context representations.
This technique addresses the problem of working with multiple domains, inasmuch
as it creates a way of smoothing the differences between the explored datasets.
Moreover, we also propose a similar auxiliary task, namely text simplification,
that can be used to complement lexical complexity prediction. Our model obtains
a boost of up to 2.42% in terms of Pearson Correlation Coefficients in contrast
to vanilla training techniques, when considering the CompLex from the Lexical
Complexity Prediction 2021 dataset. At the same time, we obtain an increase of
3% in Pearson scores, while considering a cross-lingual setup relying on the
Complex Word Identification 2018 dataset. In addition, our model yields
state-of-the-art results in terms of Mean Absolute Error.
- Abstract(参考訳): 複雑な単語識別(CWI)は、適切なテキストの単純化に向けた基礎的なプロセスである。
CWIは文脈に大きく依存するが、その困難さは、ドメインや言語の観点から大きく異なる利用可能なデータセットの不足によって増大する。
このようにして、幅広い入力例にまたがって一般化するロバストなモデルを開発するのがますます難しくなっている。
本稿では,ドメイン適応に基づくCWIタスクの新しいトレーニング手法を提案する。
このテクニックは、複数のドメインを扱う問題に対処するもので、探索されたデータセット間の差異を平滑化する方法を生み出します。
さらに,語彙的複雑性の予測を補完するために,テキストの単純化という類似した補助タスクを提案する。
我々のモデルは,Lexical Complexity Prediction 2021データセットからCompLexを考えると,ベニラトレーニング手法と比較してピアソン相関係数が2.42%向上する。
同時に、複雑な単語識別の2018年のデータセットに依存する言語横断的な設定を考慮しながら、ピアソンスコアの3%の増加を得る。
さらに,本モデルでは,平均絶対誤差という観点から最先端の結果が得られる。
関連論文リスト
- Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Adversarial Adaptation for French Named Entity Recognition [21.036698406367115]
類似の領域や一般コーパスに対する逆適応を用いたトランスフォーマーに基づくフランス語NERアプローチを提案する。
我々のアプローチでは、同じドメインや混合ドメインから大規模にラベル付けされていないコーパスを使って、より良い機能を学ぶことができます。
また, 大規模未ラベルコーパスに対する逆適応は, より小さなコーパスで事前学習したTransformerモデルを用いて, 性能低下を軽減できることを示す。
論文 参考訳(メタデータ) (2023-01-12T18:58:36Z) - ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z) - Unsupervised Mismatch Localization in Cross-Modal Sequential Data [5.932046800902776]
我々は、コンテンツミスマッチしたクロスモーダルデータ間の関係を推測できる教師なし学習アルゴリズムを開発した。
本稿では,音声生成過程を階層的に構造化された潜在変数に分解する,ミスマッチ局所化変分自動符号化(ML-VAE)という階層型ベイズディープラーニングモデルを提案する。
実験の結果,ML-VAEは人間のアノテーションを必要とせず,テキストと音声のミスマッチの特定に成功した。
論文 参考訳(メタデータ) (2022-05-05T14:23:27Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Mixed Attention Transformer for LeveragingWord-Level Knowledge to Neural
Cross-Lingual Information Retrieval [15.902630454568811]
本稿では,辞書や翻訳表などの外部単語レベルの知識を取り入れた,MAT(Mixed Attention Transformer)を提案する。
翻訳知識をアテンションマトリックスに符号化することにより、MATを用いたモデルは、入力シーケンス内の相互翻訳された単語にフォーカスすることができる。
論文 参考訳(メタデータ) (2021-09-07T00:33:14Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。