論文の概要: ECTSum: A New Benchmark Dataset For Bullet Point Summarization of Long
Earnings Call Transcripts
- arxiv url: http://arxiv.org/abs/2210.12467v1
- Date: Sat, 22 Oct 2022 15:02:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:18:39.928207
- Title: ECTSum: A New Benchmark Dataset For Bullet Point Summarization of Long
Earnings Call Transcripts
- Title(参考訳): ectsum: 長期収支記録の弾丸点要約のための新しいベンチマークデータセット
- Authors: Rajdeep Mukherjee, Abhinav Bohra, Akash Banerjee, Soumya Sharma,
Manjunath Hegde, Afreen Shaikh, Shivani Shrivastava, Koustuv Dasgupta, Niloy
Ganguly, Saptarshi Ghosh, Pawan Goyal
- Abstract要約: 我々は、公開企業によって運営されている決算書(ECT)を文書として、新たなデータセットを提示する。
また、コールで議論された重要な事実を正確に捉えるために、単純なyet- Effective(ECT-BPS)アプローチも提案する。
- 参考スコア(独自算出の注目度): 19.974530405492885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite tremendous progress in automatic summarization, state-of-the-art
methods are predominantly trained to excel in summarizing short newswire
articles, or documents with strong layout biases such as scientific articles or
government reports. Efficient techniques to summarize financial documents,
including facts and figures, have largely been unexplored, majorly due to the
unavailability of suitable datasets. In this work, we present ECTSum, a new
dataset with transcripts of earnings calls (ECTs), hosted by publicly traded
companies, as documents, and short experts-written telegram-style bullet point
summaries derived from corresponding Reuters articles. ECTs are long
unstructured documents without any prescribed length limit or format. We
benchmark our dataset with state-of-the-art summarizers across various metrics
evaluating the content quality and factual consistency of the generated
summaries. Finally, we present a simple-yet-effective approach, ECT-BPS, to
generate a set of bullet points that precisely capture the important facts
discussed in the calls.
- Abstract(参考訳): 自動要約の著しい進歩にもかかわらず、最先端の手法は、短いニュースワイヤー記事の要約や、科学的記事や政府の報告のような強力なレイアウトバイアスのある文書を多く訓練している。
事実や数字を含む財務文書を要約する効果的な手法は、主に適切なデータセットが利用できないため、明らかにされていない。
本稿では、公開企業による文書化や、Reutersの記事から派生した短い専門家による電報スタイルの弾丸点要約を含む、新たな収益計算(ECT)データセットであるECTSumを紹介する。
ECTは、所定の長さ制限やフォーマットのない長い非構造化文書である。
生成した要約の内容の質と事実の整合性を評価するため,さまざまな指標の最先端要約器を用いてデータセットをベンチマークした。
最後に、コールで議論された重要な事実を正確に捉えるために、単純なyet- Effective approachであるECT-BPSを提案する。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - Instruction-Guided Bullet Point Summarization of Long Financial Earnings Call Transcripts [25.4439290862464]
本稿では,最近リリースされたデータセットを用いて,Earning Callum Transcripts (ECT) の弾丸点要約問題について検討する。
この課題を解決するために,教師なし質問ベース抽出モジュールとパラメータ効率のよい命令調整抽象モジュールを併用する。
提案したモデルFLAN-FinBPSは,14.88%の平均ROUGEスコアゲインで最強のベースラインを上回り,最先端の新たなパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-03T16:33:16Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - Scientific Paper Extractive Summarization Enhanced by Citation Graphs [50.19266650000948]
我々は、引用グラフを活用して、異なる設定下での科学的論文の抽出要約を改善することに重点を置いている。
予備的な結果は、単純な教師なしフレームワークであっても、引用グラフが有用であることを示している。
そこで我々は,大規模ラベル付きデータが利用可能である場合のタスクにおいて,より正確な結果を得るために,グラフベースのスーパービジョン・サムライゼーション・モデル(GSS)を提案する。
論文 参考訳(メタデータ) (2022-12-08T11:53:12Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - SQuALITY: Building a Long-Document Summarization Dataset the Hard Way [31.832673451018543]
高い資格を持つ請負業者を雇い、ストーリーを読み、オリジナルの要約をスクラッチから書きます。
読解時間を記憶するために,文書毎に5つの要約を収集し,まず概要とその後の4つの質問に対処する。
最先端の要約システムによる実験は、我々のデータセットが困難であり、既存の自動評価指標が品質の弱い指標であることを示している。
論文 参考訳(メタデータ) (2022-05-23T17:02:07Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Bringing Structure into Summaries: a Faceted Summarization Dataset for
Long Scientific Documents [30.09742243490895]
FacetSumは、Emeraldのジャーナル記事上に構築された顔の要約ベンチマークである。
データセットの分析と実験結果から,構造を要約に組み込むことの重要性が明らかになった。
我々は、FacetSumが要約研究のさらなる進歩を促し、NLPシステムの開発を促進すると信じている。
論文 参考訳(メタデータ) (2021-05-31T22:58:38Z) - Enhancing Extractive Text Summarization with Topic-Aware Graph Neural
Networks [21.379555672973975]
本稿では,グラフニューラルネットワーク(GNN)に基づく抽出要約モデルを提案する。
本モデルでは,文章選択のための文書レベルの特徴を提供する潜在トピックを発見するために,共同ニューラルトピックモデル(NTM)を統合している。
実験結果から,CNN/DMおよびNYTデータセットにおいて,本モデルがほぼ最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T09:30:04Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。