論文の概要: Cross-lingual Approach to Abstractive Summarization
- arxiv url: http://arxiv.org/abs/2012.04307v1
- Date: Tue, 8 Dec 2020 09:30:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 08:17:18.590427
- Title: Cross-lingual Approach to Abstractive Summarization
- Title(参考訳): 抽象的要約への言語横断的アプローチ
- Authors: Ale\v{s} \v{Z}agar, Marko Robnik-\v{S}ikonja
- Abstract要約: 言語間モデル転送は低リソース言語でうまく適用できる。
深層ニューラルネットワークとシークエンス・トゥ・シークエンスアーキテクチャに基づく事前学習型英語要約モデルを用いた。
対象言語データに異なる比率のモデルを開発し,微調整を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic text summarization extracts important information from texts and
presents the information in the form of a summary. Abstractive summarization
approaches progressed significantly by switching to deep neural networks, but
results are not yet satisfactory, especially for languages where large training
sets do not exist. In several natural language processing tasks, cross-lingual
model transfers are successfully applied in low-resource languages. For
summarization such cross-lingual model transfer was so far not attempted due to
a non-reusable decoder side of neural models. In our work, we used a pretrained
English summarization model based on deep neural networks and
sequence-to-sequence architecture to summarize Slovene news articles. We solved
the problem of inadequate decoder by using an additional language model for
target language evaluation. We developed several models with different
proportions of target language data for fine-tuning. The results were assessed
with automatic evaluation measures and with small-scale human evaluation. The
results show that summaries of cross-lingual models fine-tuned with relatively
small amount of target language data are useful and of similar quality to an
abstractive summarizer trained with much more data in the target language.
- Abstract(参考訳): 自動テキスト要約は、テキストから重要な情報を抽出し、要約形式で提示する。
抽象要約アプローチはディープニューラルネットワークに切り替えることで大きく進歩したが、特に大きなトレーニングセットが存在しない言語では、結果はまだ満足できない。
いくつかの自然言語処理タスクでは、言語間のモデル転送が低リソース言語でうまく適用される。
要約のために、このような言語間モデル転送は、神経モデルの非可換デコーダ側のため、これまで試みられていなかった。
本研究では,深層ニューラルネットワークとシーケンス・ツー・シーケンスアーキテクチャに基づく事前学習された英語要約モデルを用いて,スロベニアのニュース記事を要約した。
対象言語評価のための追加言語モデルを用いて,デコーダの不適切な問題を解く。
対象言語データに異なる比率のモデルを開発し,微調整を行った。
結果は, 自動評価法と小規模人間評価法で評価した。
その結果,比較的少ない対象言語データで微調整された言語横断モデルの要約は有用であり,対象言語ではるかに多くのデータで訓練された抽象的要約と類似した品質を示す。
関連論文リスト
- Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - Improving Cross-lingual Information Retrieval on Low-Resource Languages
via Optimal Transport Distillation [21.057178077747754]
本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。
クエリドキュメントマッチングの知識から言語間知識を分離することにより、OPTICALは蒸留訓練のためのbitextデータのみを必要とする。
実験結果から,OPTICALは最小限のトレーニングデータにより,低リソース言語上での強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-01-29T22:30:36Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with
Bilingual Semantic Similarity Rewards [40.17497211507507]
言語間テキスト要約は、実際は重要だが未探索の課題である。
本稿では,エンドツーエンドのテキスト要約モデルを提案する。
論文 参考訳(メタデータ) (2020-06-27T21:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。