論文の概要: A Proposition-Level Clustering Approach for Multi-Document Summarization
- arxiv url: http://arxiv.org/abs/2112.08770v1
- Date: Thu, 16 Dec 2021 10:34:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 14:25:09.736254
- Title: A Proposition-Level Clustering Approach for Multi-Document Summarization
- Title(参考訳): 多文書要約のための提案レベルクラスタリング手法
- Authors: Ori Ernst, Avi Caciularu, Ori Shapira, Ramakanth Pasunuru, Mohit
Bansal, Jacob Goldberger and Ido Dagan
- Abstract要約: クラスタリングアプローチを再検討し、より正確な情報アライメントの提案をグループ化します。
提案手法は,有意な命題を検出し,それらをパラフラスティックなクラスタに分類し,その命題を融合して各クラスタの代表文を生成する。
DUC 2004 とTAC 2011 データセットでは,従来の最先端 MDS 法よりも要約法が優れている。
- 参考スコア(独自算出の注目度): 82.4616498914049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text clustering methods were traditionally incorporated into multi-document
summarization (MDS) as a means for coping with considerable information
repetition. Clusters were leveraged to indicate information saliency and to
avoid redundancy. These methods focused on clustering sentences, even though
closely related sentences also usually contain non-aligning information. In
this work, we revisit the clustering approach, grouping together propositions
for more precise information alignment. Specifically, our method detects
salient propositions, clusters them into paraphrastic clusters, and generates a
representative sentence for each cluster by fusing its propositions. Our
summarization method improves over the previous state-of-the-art MDS method in
the DUC 2004 and TAC 2011 datasets, both in automatic ROUGE scores and human
preference.
- Abstract(参考訳): テキストクラスタリング手法は従来,情報繰り返しに対処する手段として,多文書要約(MDS)に取り入れられていた。
クラスタは情報満足度を示し、冗長性を避けるために利用されました。
これらの手法は文をクラスタリングすることに重点を置いているが、密接に関連する文は、通常、非アライン情報も含んでいる。
本研究では,クラスタリング手法を再検討し,より正確な情報アライメントを提案する。
具体的には,提案文を抽出してパラフラスティッククラスタに集合し,提案文を融合して各クラスタに代表文を生成する。
DUC 2004 とTAC 2011 のデータセットでは,自動ROUGE スコアと人間の嗜好の両方において,従来の最先端のMDS 手法よりも精度が向上する。
関連論文リスト
- JADS: A Framework for Self-supervised Joint Aspect Discovery and Summarization [3.992091862806936]
私たちのソリューションはトピックの発見と要約をひとつのステップに統合します。
テキストデータから,JADS(Joint Aspect Discovery and Summarization Algorithm)が入力からアスペクトを検出する。
提案手法は,地上の真理と高いセマンティックアライメントを実現し,現実的である。
論文 参考訳(メタデータ) (2024-05-28T23:01:57Z) - Unsupervised Multimodal Clustering for Semantics Discovery in Multimodal Utterances [24.142013877384603]
本稿では,新しい教師なしマルチモーダルクラスタリング手法 (UMC) を提案する。
UMCは、マルチモーダルデータのための拡張ビューを構築するためのユニークなアプローチを導入し、事前トレーニングを実行するために使用される。
我々は、最先端の手法よりもクラスタリングメトリクスの2-6%のスコアが顕著に改善され、この領域で最初の成功例となった。
論文 参考訳(メタデータ) (2024-05-21T13:24:07Z) - CEIL: A General Classification-Enhanced Iterative Learning Framework for
Text Clustering [16.08402937918212]
短文クラスタリングのための新しい分類強化反復学習フレームワークを提案する。
各イテレーションにおいて、まず最初に言語モデルを採用して、初期テキスト表現を検索する。
厳密なデータフィルタリングと集約プロセスの後、クリーンなカテゴリラベルを持つサンプルが検索され、監督情報として機能する。
最後に、表現能力が改善された更新言語モデルを使用して、次のイテレーションでクラスタリングを強化する。
論文 参考訳(メタデータ) (2023-04-20T14:04:31Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - Neural Text Classification by Jointly Learning to Cluster and Align [5.969960391685054]
我々は、潜在変数モデルを介してクラスタセンターを誘導し、分散単語の埋め込みと相互作用することで、ニューラルネットワークによるクラスタリングアプローチをテキスト分類タスクに拡張する。
提案手法は,単語クラスタリングセンタロイドとクラスタリングトーケンアライメントを共同で学習し,複数のベンチマークデータセット上で技術結果の状態を達成している。
論文 参考訳(メタデータ) (2020-11-24T16:07:18Z) - SummPip: Unsupervised Multi-Document Summarization with Sentence Graph
Compression [61.97200991151141]
SummPipはマルチドキュメント要約のための教師なしの手法である。
元の文書を文グラフに変換し、言語表現と深層表現の両方を考慮に入れます。
次に、スペクトルクラスタリングを適用して複数の文のクラスタを取得し、最後に各クラスタを圧縮して最終的な要約を生成する。
論文 参考訳(メタデータ) (2020-07-17T13:01:15Z) - Enhancement of Short Text Clustering by Iterative Classification [0.0]
反復分類は、外乱のないクラスターを得るために外乱除去を適用する。
クラスタ分布に基づいて非アウトレーヤを用いて分類アルゴリズムを訓練する。
これを何回か繰り返すことで、より改良されたテキストのクラスタリングが得られる。
論文 参考訳(メタデータ) (2020-01-31T02:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。