論文の概要: GAE-ISumm: Unsupervised Graph-Based Summarization of Indian Languages
- arxiv url: http://arxiv.org/abs/2212.12937v1
- Date: Sun, 25 Dec 2022 17:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 13:41:29.832586
- Title: GAE-ISumm: Unsupervised Graph-Based Summarization of Indian Languages
- Title(参考訳): GAE-ISumm: 教師なしグラフに基づくインドの言語要約
- Authors: Lakshmi Sireesha Vakada, Anudeep Ch, Mounika Marreddy, Subba Reddy
Oota, Radhika Mamidi
- Abstract要約: 文書要約は、テキスト文書の正確で一貫性のある要約を作成することを目的としている。
多くのディープラーニングの要約モデルは、主に英語向けに開発されており、大きなトレーニングコーパスを必要とすることが多い。
本稿では,テキスト文書から要約を抽出する教師なしのIndic summarizationモデルであるGAE-ISummを提案する。
- 参考スコア(独自算出の注目度): 5.197307534263253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document summarization aims to create a precise and coherent summary of a
text document. Many deep learning summarization models are developed mainly for
English, often requiring a large training corpus and efficient pre-trained
language models and tools. However, English summarization models for
low-resource Indian languages are often limited by rich morphological
variation, syntax, and semantic differences. In this paper, we propose
GAE-ISumm, an unsupervised Indic summarization model that extracts summaries
from text documents. In particular, our proposed model, GAE-ISumm uses Graph
Autoencoder (GAE) to learn text representations and a document summary jointly.
We also provide a manually-annotated Telugu summarization dataset TELSUM, to
experiment with our model GAE-ISumm. Further, we experiment with the most
publicly available Indian language summarization datasets to investigate the
effectiveness of GAE-ISumm on other Indian languages. Our experiments of
GAE-ISumm in seven languages make the following observations: (i) it is
competitive or better than state-of-the-art results on all datasets, (ii) it
reports benchmark results on TELSUM, and (iii) the inclusion of positional and
cluster information in the proposed model improved the performance of
summaries.
- Abstract(参考訳): 文書要約は、テキスト文書の正確かつ一貫性のある要約を作成することを目的としている。
多くのディープラーニング要約モデルは、主に英語向けに開発されており、大きなトレーニングコーパスと効率的な事前学習言語モデルとツールを必要とすることが多い。
しかし、低リソースインド言語のための英語の要約モデルは、多種多様な形態的変化、構文、意味的差異によって制限されることが多い。
本稿では,テキスト文書から要約を抽出する教師なしのIndic summarizationモデルであるGAE-ISummを提案する。
特に,提案モデルであるGAE-ISummはグラフオートエンコーダ(GAE)を用いてテキスト表現と文書要約を共同で学習する。
また,手動で注釈付けしたTelugu summarization dataset TELSUMを提供し,GAE-ISummモデルを用いた実験を行った。
さらに,インド語におけるgae-isummの有効性を調べるために,最も広く入手可能なインド語要約データセットを実験した。
7言語でのGAE-ISumの実験では、以下の結果が得られた。
(i)すべてのデータセットの最先端結果よりも競争力があるか、あるいは優れている。
(ii)telsumのベンチマーク結果を報告し、
(3)提案モデルに位置情報とクラスタ情報を含めることで,要約の性能が向上した。
関連論文リスト
- L3Cube-MahaSum: A Comprehensive Dataset and BART Models for Abstractive Text Summarization in Marathi [0.4194295877935868]
本稿では,マラタイにおける多種多様なニュース記事の大規模コレクションであるMahaSUMデータセットについて述べる。
データセットは、広範囲のオンラインニュースソースから記事を取り除き、抽象的な要約を手作業で検証することで作成されました。
我々は、MahaSUMデータセットを使用して、Indic言語用に調整されたBARTモデルの変種であるIndicBARTモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-10-11T18:37:37Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - GIELLM: Japanese General Information Extraction Large Language Model
Utilizing Mutual Reinforcement Effect [0.0]
汎用情報抽出大言語モデル(GIELLM)について紹介する。
テキスト分類、感性分析、名前付きエンティティ認識、関係抽出、および一様入力出力スキーマを使用したイベント抽出を統合している。
このイノベーションは、このような多様なIEサブタスクを同時に扱うモデルの最初の例である。
論文 参考訳(メタデータ) (2023-11-12T13:30:38Z) - Text Summarization Using Large Language Models: A Comparative Study of
MPT-7b-instruct, Falcon-7b-instruct, and OpenAI Chat-GPT Models [0.0]
Leveraging Large Language Models (LLMs) は、要約技術の強化において、顕著な将来性を示している。
本稿では,MPT-7b-instruct,falcon-7b-instruct,OpenAI ChatGPT text-davinci-003 モデルなど,多種多様な LLM を用いたテキスト要約について検討する。
論文 参考訳(メタデータ) (2023-10-16T14:33:02Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Scientific Paper Extractive Summarization Enhanced by Citation Graphs [50.19266650000948]
我々は、引用グラフを活用して、異なる設定下での科学的論文の抽出要約を改善することに重点を置いている。
予備的な結果は、単純な教師なしフレームワークであっても、引用グラフが有用であることを示している。
そこで我々は,大規模ラベル付きデータが利用可能である場合のタスクにおいて,より正確な結果を得るために,グラフベースのスーパービジョン・サムライゼーション・モデル(GSS)を提案する。
論文 参考訳(メタデータ) (2022-12-08T11:53:12Z) - GRETEL: Graph Contrastive Topic Enhanced Language Model for Long
Document Extractive Summarization [22.053942327552583]
グローバルな意味情報を取得するためのグラフコントラストトピック拡張言語モデル(GRETEL)を提案する。
GRETELは階層型トランスフォーマーエンコーダとグラフコントラスト学習を統合し,グローバル文書コンテキストとゴールド要約から意味情報を融合する。
一般領域およびバイオメディカルデータセットの実験結果から,提案手法がSOTA法より優れていることが示された。
論文 参考訳(メタデータ) (2022-08-21T23:09:29Z) - Liputan6: A Large-scale Indonesian Dataset for Text Summarization [43.375797352517765]
オンラインニュースポータルであるLiputan6.comから記事を抽出し、215,827のドキュメント-要約ペアを取得する。
事前学習した言語モデルを用いて,データセット上のベンチマーク抽出および抽象的要約手法を開発する。
論文 参考訳(メタデータ) (2020-11-02T02:01:12Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。