論文の概要: Dataset for Automatic Summarization of Russian News
- arxiv url: http://arxiv.org/abs/2006.11063v4
- Date: Tue, 5 Oct 2021 13:30:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 04:40:42.263904
- Title: Dataset for Automatic Summarization of Russian News
- Title(参考訳): ロシアニュースの自動要約のためのデータセット
- Authors: Ilya Gusev
- Abstract要約: ロシアのニュースを要約する最初のデータセットであるGazetaを紹介します。
このデータセットがロシア語のテキスト要約手法の有効なタスクであることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic text summarization has been studied in a variety of domains and
languages. However, this does not hold for the Russian language. To overcome
this issue, we present Gazeta, the first dataset for summarization of Russian
news. We describe the properties of this dataset and benchmark several
extractive and abstractive models. We demonstrate that the dataset is a valid
task for methods of text summarization for Russian. Additionally, we prove the
pretrained mBART model to be useful for Russian text summarization.
- Abstract(参考訳): テキストの自動要約は様々なドメインや言語で研究されている。
しかし、これはロシア語には当てはまらない。
この問題を解決するために、ロシアのニュースを要約する最初のデータセットであるGazetaを紹介する。
本データセットの特性を概説し,いくつかの抽出および抽象モデルについてベンチマークする。
このデータセットはロシア語のテキスト要約手法の有効なタスクであることを示す。
さらに,事前学習したmBARTモデルをロシア語テキスト要約に有用であることを示す。
関連論文リスト
- The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design [39.80182519545138]
本稿では,ロシア語の埋め込みモデルに関する研究に焦点をあてる。
ru-en-RoSBERTaと呼ばれる新しいロシアの埋め込みモデルとruMTEBベンチマークを導入している。
論文 参考訳(メタデータ) (2024-08-22T15:53:23Z) - Russian-Language Multimodal Dataset for Automatic Summarization of Scientific Papers [0.20482269513546458]
本稿では、ロシア語科学論文のマルチモーダルデータセットの作成と、自動テキスト要約作業のための既存の言語モデルの試験について論じる。
データセットの特徴は、テキスト、テーブル、フィギュアを含むマルチモーダルデータである。
論文 参考訳(メタデータ) (2024-05-13T16:21:33Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - RuBioRoBERTa: a pre-trained biomedical language model for Russian
language biomedical text mining [117.56261821197741]
ロシア語生物医学テキストマイニングのためのBERTベースのモデルをいくつか提示する。
これらのモデルは、ロシアの生物医学領域で自由に利用できるテキストのコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2022-04-08T09:18:59Z) - Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP
models [53.95094814056337]
本稿では,ロシアNLPモデルのGLUEを改良したベンチマークである,ロシアのSuperGLUE 1.1を提案する。
新バージョンには、技術的、ユーザエクスペリエンス、方法論的改善が多数含まれている。
我々は,ロシアのSuperGLUEをオープンソースモデルMOROCCOの産業的評価のためのフレームワークに統合する。
論文 参考訳(メタデータ) (2022-02-15T23:45:30Z) - Fine-tuning GPT-3 for Russian Text Summarization [77.34726150561087]
本稿では,テキストを要約するruGPT3(ruGPT3)機能について紹介し,それに対応する人文要約を用いてロシア語ニュースのコーパスを微調整する。
得られたテキストを一連のメトリクスで評価し、アーキテクチャや損失関数に付加的な変更を加えることなく、我々のソリューションが最先端のモデルの性能を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-08-07T19:01:40Z) - Topic Modeling Based Extractive Text Summarization [0.0]
本稿では,潜在トピックに基づいて内容をクラスタリングすることで,テキストを要約する新しい手法を提案する。
我々は、テキスト要約へのアプローチにおいて、より使用量が少なく挑戦的なWikiHowデータセットを活用している。
論文 参考訳(メタデータ) (2021-06-29T12:28:19Z) - Methods for Detoxification of Texts for the Russian Language [55.337471467610094]
我々は、攻撃的言語と戦うために、ロシア語のテキストを自動で解毒する研究を初めて紹介する。
我々は、局所的な修正を行う教師なしアプローチと、事前訓練された言語GPT-2モデルに基づく教師なしアプローチの2種類のモデルをテストする。
以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。
論文 参考訳(メタデータ) (2021-05-19T10:37:44Z) - Liputan6: A Large-scale Indonesian Dataset for Text Summarization [43.375797352517765]
オンラインニュースポータルであるLiputan6.comから記事を抽出し、215,827のドキュメント-要約ペアを取得する。
事前学習した言語モデルを用いて,データセット上のベンチマーク抽出および抽象的要約手法を開発する。
論文 参考訳(メタデータ) (2020-11-02T02:01:12Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。