論文の概要: A Novel Word Pair-based Gaussian Sentence Similarity Algorithm For Bengali Extractive Text Summarization
- arxiv url: http://arxiv.org/abs/2411.17181v1
- Date: Tue, 26 Nov 2024 07:42:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:36:06.438815
- Title: A Novel Word Pair-based Gaussian Sentence Similarity Algorithm For Bengali Extractive Text Summarization
- Title(参考訳): 単語ペアに基づくベンガル抽出テキスト要約のためのガウス文類似アルゴリズム
- Authors: Fahim Morshed, Md. Abdur Rahman, Sumon Ahmed,
- Abstract要約: 本稿では,2つの文間の意味的関係を計算するために,ワードペアベースのガウス文類似性(WGSS)アルゴリズムを提案する。
単語平均化法で直面する文表現問題を補正する単語対単語ベースで2つの文を比較する。
提案手法は, 4つの異なるデータセットを用いて検証し, ROUGEの平均値に対して43.2%向上した。
- 参考スコア(独自算出の注目度): 1.3791394805787949
- License:
- Abstract: Extractive Text Summarization is the process of selecting the most representative parts of a larger text without losing any key information. Recent attempts at extractive text summarization in Bengali, either relied on statistical techniques like TF-IDF or used naive sentence similarity measures like the word averaging technique. All of these strategies suffer from expressing semantic relationships correctly. Here, we propose a novel Word pair-based Gaussian Sentence Similarity (WGSS) algorithm for calculating the semantic relation between two sentences. WGSS takes the geometric means of individual Gaussian similarity values of word embedding vectors to get the semantic relationship between sentences. It compares two sentences on a word-to-word basis which rectifies the sentence representation problem faced by the word averaging method. The summarization process extracts key sentences by grouping semantically similar sentences into clusters using the Spectral Clustering algorithm. After clustering, we use TF-IDF ranking to pick the best sentence from each cluster. The proposed method is validated using four different datasets, and it outperformed other recent models by 43.2\% on average ROUGE scores (ranging from 2.5\% to 95.4\%). It is also experimented on other low-resource languages i.e. Turkish, Marathi, and Hindi language, where we find that the proposed method performs as similar as Bengali for these languages. In addition, a new high-quality Bengali dataset is curated which contains 250 articles and a pair of summaries for each of them. We believe this research is a crucial addition to Bengali Natural Language Processing (NLP) research and it can easily be extended into other low-resource languages. We made the implementation of the proposed model and data public on \href{https://github.com/FMOpee/WGSS}{https://github.com/FMOpee/WGSS}.
- Abstract(参考訳): 抽出テキスト要約は、キー情報を失うことなく、より大きなテキストの最も代表的な部分を選択するプロセスである。
ベンガル語におけるテキスト要約の最近の試みは、TF-IDFのような統計的手法に依存するか、あるいは単語平均化手法のようなナイーブな文類似性尺度を用いていた。
これらの戦略はすべて、意味的関係を正しく表現することに苦しむ。
本稿では,2つの文間の意味的関係を計算するために,ワードペアベースのガウス文類似性(WGSS)アルゴリズムを提案する。
WGSSは、単語埋め込みベクトルの個々のガウス類似度値の幾何学的手段を用いて、文間の意味的関係を得る。
単語平均化法で直面する文表現問題を補正する単語対単語ベースで2つの文を比較する。
要約処理は、スペクトルクラスタリングアルゴリズムを用いて、意味論的に類似した文をクラスタにグループ化することでキー文を抽出する。
クラスタリング後、各クラスタから最高の文を選択するためにTF-IDFランキングを使用します。
提案手法は4つの異なるデータセットを用いて検証され, 平均ROUGEスコア(2.5\%から95.4\%)において, 他のモデルよりも43.2\%向上した。
また、トルコ語、マラティー語、ヒンディー語など他の低リソース言語でも実験されており、提案手法はベンガル語と類似している。
さらに、250の記事と1対の要約を含む、新しい高品質のベンガルデータセットがキュレーションされている。
我々はこの研究がベンガル自然言語処理(NLP)研究の重要な追加であり、他の低リソース言語にも容易に拡張できると考えている。
我々は,提案したモデルの実装とデータ公開を,href{https://github.com/FMOpee/WGSS}{https://github.com/FMOpee/WGSS}上で行った。
関連論文リスト
- Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - Pruned Graph Neural Network for Short Story Ordering [0.7087237546722617]
コヒーレンスを最大化する順序に文を整理することは、文の順序付けとして知られている。
そこで本研究では,文章間のエッジを生成するために,短い物語の文中心グラフを構築する手法を提案する。
また,代名詞を代名詞の代名詞に置き換えることによって,文中心性グラフの文を効果的にエンコードすることが観察された。
論文 参考訳(メタデータ) (2022-03-13T22:25:17Z) - Using BERT Encoding and Sentence-Level Language Model for Sentence
Ordering [0.9134244356393667]
本稿では,短い記事のコーパスにおける文順序付けのアルゴリズムを提案する。
提案手法では,アテンション機構を用いて文の依存関係をキャプチャするUniversal Transformer (UT) に基づく言語モデルを用いる。
提案モデルには文、言語モデル、Brute Force Searchによる文配列の3つのコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-08-24T23:03:36Z) - A novel hybrid methodology of measuring sentence similarity [0.0]
文間の類似性を正確に測定する必要がある。
ディープラーニング手法は、多くの自然言語処理分野における最先端のパフォーマンスを示す。
文の構造や文を構成する単語構造を考えることも重要である。
論文 参考訳(メタデータ) (2021-05-03T06:50:54Z) - Combining Word Embeddings and N-grams for Unsupervised Document
Summarization [2.1591018627187286]
グラフに基づく抽出文書要約は、文類似性グラフの品質に依存する。
既製のディープ埋め込み機能とtf-idf機能を採用し、新しいテキスト類似度指標を導入する。
提案手法は, tf-idf に基づく手法より優れ, DUC04 データセット上での最先端性能を実現することができる。
論文 参考訳(メタデータ) (2020-04-25T00:22:46Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。