論文の概要: Research on Information Extraction of LCSTS Dataset Based on an Improved BERTSum-LSTM Model
- arxiv url: http://arxiv.org/abs/2406.18364v1
- Date: Wed, 26 Jun 2024 14:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 13:19:36.048460
- Title: Research on Information Extraction of LCSTS Dataset Based on an Improved BERTSum-LSTM Model
- Title(参考訳): 改良BERTSum-LSTMモデルに基づくLCSTSデータセットの情報抽出に関する研究
- Authors: Yiming Chen, Haobin Chen, Simin Liu, Yunyun Liu, Fanhao Zhou, Bing Wei,
- Abstract要約: 本稿では,改良されたBERTSum-LSTMモデルに基づくLCSTSデータセットの情報抽出手法について検討する。
BERTSum-LSTMモデルの改良により,中国語ニュース要約生成の性能が向上する。
- 参考スコア(独自算出の注目度): 3.942479021508835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the continuous advancement of artificial intelligence, natural language processing technology has become widely utilized in various fields. At the same time, there are many challenges in creating Chinese news summaries. First of all, the semantics of Chinese news is complex, and the amount of information is enormous. Extracting critical information from Chinese news presents a significant challenge. Second, the news summary should be concise and clear, focusing on the main content and avoiding redundancy. In addition, the particularity of the Chinese language, such as polysemy, word segmentation, etc., makes it challenging to generate Chinese news summaries. Based on the above, this paper studies the information extraction method of the LCSTS dataset based on an improved BERTSum-LSTM model. We improve the BERTSum-LSTM model to make it perform better in generating Chinese news summaries. The experimental results show that the proposed method has a good effect on creating news summaries, which is of great importance to the construction of news summaries.
- Abstract(参考訳): 人工知能の継続的な進歩により、自然言語処理技術は様々な分野で広く利用されるようになった。
同時に、中国のニュース要約を作成する上で、多くの課題がある。
まず、中国のニュースの意味論は複雑であり、情報の量は膨大である。
中国のニュースから重要な情報を抽出することは大きな課題だ。
第二に、ニュースの要約は簡潔で明確で、メインのコンテンツに集中し、冗長性を避けなければならない。
また、多節語や単語分割などの中国語の特殊性は、中国語のニュース要約を生成するのを困難にしている。
本稿では,改良されたBERTSum-LSTMモデルに基づくLCSTSデータセットの情報抽出手法について検討する。
BERTSum-LSTMモデルの改良により,中国語ニュース要約生成の性能が向上する。
実験の結果,提案手法はニュース要約の作成に有効であり,ニュース要約の構築に非常に重要であることがわかった。
関連論文リスト
- A Self-Learning Multimodal Approach for Fake News Detection [35.98977478616019]
偽ニュース分類のための自己学習型マルチモーダルモデルを提案する。
このモデルは、ラベル付きデータを必要としない機能抽出のための堅牢な手法であるコントラスト学習を利用する。
公開データセットを用いた実験結果から,提案モデルがいくつかの最先端の分類手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-08T07:41:44Z) - Headline-Guided Extractive Summarization for Thai News Articles [0.0]
タイ語ニュース記事の見出しの文脈情報を組み込んだ抽出要約モデルであるCHIMAを提案する。
我々のモデルは、事前訓練された言語モデルを用いて、複雑な言語意味をキャプチャし、要約に含まれる各文に確率を割り当てる。
公開されたタイのニュースデータセットの実験では、CHIMAはROUGE、BLEU、F1のスコアでベースラインモデルを上回っている。
論文 参考訳(メタデータ) (2024-12-02T15:43:10Z) - ChineseWebText 2.0: Large-Scale High-quality Chinese Web Text with Multi-dimensional and fine-grained information [29.57708536491853]
大規模かつ高品質な中国語データセットを多次元かつきめ細かい情報で構築するための新しいツールチェーン MDFG-tool を提案する。
我々は,3.8TBの漢文テキスト2.0を公開し,各テキストは品質スコア,ドメインラベル,毒性ラベル,毒性スコアに関連付けられている。
論文 参考訳(メタデータ) (2024-11-29T12:48:49Z) - Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models [104.96990850774566]
我々は,MAETと命名された多言語能力抽出と伝達手法を提案する。
我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。
実験結果から,MAETは高度能力の抽出と伝達を効果的に行うことができ,トレーニングベースライン法よりも優れることがわかった。
論文 参考訳(メタデータ) (2024-10-10T11:23:18Z) - COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning [37.843051974342124]
実世界の様々な資源から派生した,厳密な人的検証を行う新しい中国語指導調律データセットであるCOIG-CQIAを紹介する。
我々はCOIG-CQIAに関する広範な実験を行い、それらを強力なベースラインモデルやデータセットと比較する。
実験の結果,COIG-CQIAでトレーニングしたモデルは,様々なベンチマークで高い競争性能を達成できた。
論文 参考訳(メタデータ) (2024-03-26T19:24:18Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Enhancing LLM with Evolutionary Fine Tuning for News Summary Generation [2.1828601975620257]
本稿では,強力な自然言語理解と生成機能を備えたLLMを用いたニュース要約生成のための新しいパラダイムを提案する。
LLMを用いて、ニュース段落に含まれる事象から複数の構造化イベントパターンを抽出し、遺伝的アルゴリズムを用いてイベントパターンの集団を進化させ、LLMに入力する最も適応性の高いイベントパターンを選択し、ニュース要約を生成する。
ニュース概要生成装置(NSG)は、イベントパターンの集団を選択し、進化させ、ニュース要約を生成するように設計されている。
論文 参考訳(メタデータ) (2023-07-06T08:13:53Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。