論文の概要: ARLED: Leveraging LED-based ARMAN Model for Abstractive Summarization of Persian Long Documents
- arxiv url: http://arxiv.org/abs/2503.10233v1
- Date: Thu, 13 Mar 2025 10:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:35.000408
- Title: ARLED: Leveraging LED-based ARMAN Model for Abstractive Summarization of Persian Long Documents
- Title(参考訳): ARLED: ペルシャ長文の抽象要約のためのLEDベースのARMANモデル
- Authors: Samira Zangooei, Amirhossein Darmani, Hossein Farahmand Nezhad, Laya Mahmoudi,
- Abstract要約: 著者はEnsaniのWebサイトから入手した30万のフルテキストペルシア語の論文のデータセットを紹介している。
彼らは、要約を生成するために、Longformerアーキテクチャに基づいたARMANモデルを適用します。
結果はペルシャ語のテキスト要約における有望なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The increasing volume of textual data poses challenges in reading and comprehending large documents, particularly for scholars who need to extract useful information from research articles. Automatic text summarization has emerged as a powerful tool to condense lengthy documents into concise and informative summaries. Depending on the approach used, text summarization can be categorized as either extractive or abstractive. While extractive methods are commonly used due to their simplicity, they often miss important information. On the other hand, Abstractive Summarization can generate more coherent and informative summaries by understanding the underlying meaning of the text. Abstractive techniques have gained attention in various languages, and recent advancements have been achieved through pre-training models such as BERT, BART, and T5. However, the challenge of summarizing long documents remains, and alternative models like Longformer have been introduced to address this limitation. In this context, this paper focuses on abstractive summarization in the Persian language. The authors introduce a new dataset of 300,000 full-text Persian papers obtained from the Ensani website and apply the ARMAN model, based on the Longformer architecture, to generate summaries. The experimental results demonstrate promising performance in Persian text summarization. The paper provides a comprehensive overview of related work, discusses the methodology, presents the experimental results, and concludes with future research directions.
- Abstract(参考訳): テキストデータの量の増加は、特に研究論文から有用な情報を抽出する必要がある学者にとって、大きな文書を読み、理解する上での課題となっている。
テキストの自動要約は、長い文書を簡潔で情報的な要約にまとめる強力なツールとして登場した。
使用するアプローチによっては、テキスト要約は抽出的または抽象的のいずれかに分類される。
抽出法は単純さから一般的に用いられるが、重要な情報を見逃すことも多い。
一方、抽象的な要約は、テキストの根底にある意味を理解することによって、より一貫性のある情報的な要約を生成することができる。
抽象的手法は様々な言語で注目を集めており、最近の進歩はBERT、BART、T5といった事前学習モデルによって達成されている。
しかし、長い文書を要約するという課題は残っており、Longformerのような代替モデルがこの制限に対処するために導入された。
本稿ではペルシャ語における抽象的な要約に焦点を当てる。
著者らはEnsaniのWebサイトから得られた30万のフルテキストペルシア語の論文のデータセットを紹介し、Longformerアーキテクチャに基づいたARMANモデルを適用して要約を生成する。
実験結果はペルシャ語のテキスト要約において有望な性能を示した。
本稿では,関連研究の概要を概説し,方法論を論じ,実験結果を示し,今後の研究方針を述べる。
関連論文リスト
- Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Salience Allocation as Guidance for Abstractive Summarization [61.31826412150143]
本稿では, サリエンセ・サリエンス・ガイダンス(SEASON, SaliencE Allocation as Guidance for Abstractive SummarizatiON)を用いた新しい要約手法を提案する。
SEASONは、サリエンス予測の割り当てを利用して抽象的な要約を導き、異なる抽象性のある記事に順応する。
論文 参考訳(メタデータ) (2022-10-22T02:13:44Z) - TSTR: Too Short to Represent, Summarize with Details! Intro-Guided
Extended Summary Generation [22.738731393540633]
学術文献など、原文が比較的長い領域では、そのような要約は一般的で粗い概観を超越することはできない。
本稿では,文書の紹介情報を利用した抽出要約器TSTRを提案する。
論文 参考訳(メタデータ) (2022-06-02T02:45:31Z) - EmailSum: Abstractive Email Thread Summarization [105.46012304024312]
我々は,メールスレッド要約(EmailSum)データセットを抽象化的に開発する。
このデータセットには、人間による注釈付きショート(30ワード)と、2549のメールスレッドからなるロング(100ワード)のサマリーが含まれている。
本研究は,現在の抽象的要約モデルの課題を明らかにするものである。
論文 参考訳(メタデータ) (2021-07-30T15:13:14Z) - Topic Modeling Based Extractive Text Summarization [0.0]
本稿では,潜在トピックに基づいて内容をクラスタリングすることで,テキストを要約する新しい手法を提案する。
我々は、テキスト要約へのアプローチにおいて、より使用量が少なく挑戦的なWikiHowデータセットを活用している。
論文 参考訳(メタデータ) (2021-06-29T12:28:19Z) - Enhancing Extractive Text Summarization with Topic-Aware Graph Neural
Networks [21.379555672973975]
本稿では,グラフニューラルネットワーク(GNN)に基づく抽出要約モデルを提案する。
本モデルでは,文章選択のための文書レベルの特徴を提供する潜在トピックを発見するために,共同ニューラルトピックモデル(NTM)を統合している。
実験結果から,CNN/DMおよびNYTデータセットにおいて,本モデルがほぼ最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T09:30:04Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。