論文の概要: PublicHearingBR: A Brazilian Portuguese Dataset of Public Hearing Transcripts for Summarization of Long Documents
- arxiv url: http://arxiv.org/abs/2410.07495v1
- Date: Thu, 10 Oct 2024 00:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 16:46:37.165661
- Title: PublicHearingBR: A Brazilian Portuguese Dataset of Public Hearing Transcripts for Summarization of Long Documents
- Title(参考訳): PublicHearingBR: 長い文書の要約のためのブラジルの聴取記録のブラジルのデータセット
- Authors: Leandro Carísio Fernandes, Guilherme Zeferino Rodrigues Dobins, Roberto Lotufo, Jayr Alencar Pereira,
- Abstract要約: データセットはブラジル代議院が主催する公聴会の書き起こしからなり、ニュース記事や構成された要約と組み合わせられている。
このデータセットは、ポルトガル語における長期文書要約システムの開発と評価を支援する。
- 参考スコア(独自算出の注目度): 3.0347101044078766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces PublicHearingBR, a Brazilian Portuguese dataset designed for summarizing long documents. The dataset consists of transcripts of public hearings held by the Brazilian Chamber of Deputies, paired with news articles and structured summaries containing the individuals participating in the hearing and their statements or opinions. The dataset supports the development and evaluation of long document summarization systems in Portuguese. Our contributions include the dataset, a hybrid summarization system to establish a baseline for future studies, and a discussion on evaluation metrics for summarization involving large language models, addressing the challenge of hallucination in the generated summaries. As a result of this discussion, the dataset also provides annotated data that can be used in Natural Language Inference tasks in Portuguese.
- Abstract(参考訳): 本稿では,長い文書を要約するためのブラジルのデータセットであるPublicHearingBRを紹介する。
このデータセットは、ブラジル下院が主催する公聴会の書き起こしからなり、ニュース記事と、聴聞会に参加している個人と彼らの発言や意見を含む構成された要約とが組み合わされている。
このデータセットは、ポルトガル語における長期文書要約システムの開発と評価を支援する。
我々の貢献は、データセット、将来の研究のベースラインを確立するためのハイブリッド要約システム、および大規模な言語モデルを含む要約評価指標に関する議論であり、生成された要約における幻覚の課題に対処するものである。
この議論の結果、データセットはまた、ポルトガル語の自然言語推論タスクで使用できる注釈付きデータも提供する。
関連論文リスト
- Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - KamerRaad: Enhancing Information Retrieval in Belgian National Politics through Hierarchical Summarization and Conversational Interfaces [55.00702535694059]
KamerRaadは、大きな言語モデルを活用するAIツールで、市民がベルギーの政治情報と対話的に関わるのを助ける。
このツールは、議会の手続きから重要な抜粋を抽出し、簡潔に要約し、次いで生成AIに基づくインタラクションの可能性を示す。
論文 参考訳(メタデータ) (2024-04-22T15:01:39Z) - FREDSum: A Dialogue Summarization Corpus for French Political Debates [26.76383031532945]
本稿では,多言語対話要約のための資源強化を目的とした,フランスの政治論争のデータセットを提案する。
われわれのデータセットは、手書きと注釈付き政治討論から成り、さまざまなトピックや視点をカバーしている。
論文 参考訳(メタデータ) (2023-12-08T05:42:04Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - BLUEX: A benchmark based on Brazilian Leading Universities Entrance
eXams [4.9069311006119865]
ブラジルの2大大学(UNI CAMPとUSP)の入学試験のデータセットであるBLUEXを紹介する。
データセットには、さまざまな主題におけるNLPモデルの性能を評価するための注釈付きメタデータが含まれている。
我々は、最先端のLMを用いた実験を通じて、ポルトガル語の自然言語理解と推論の最先端化の可能性を実証するベンチマークを構築した。
論文 参考訳(メタデータ) (2023-07-11T16:25:09Z) - $\mu$PLAN: Summarizing using a Content Plan as Cross-Lingual Bridge [72.64847925450368]
言語間の要約は、異なる言語で入力文書が与えられた1つの言語で要約を生成することで構成される。
この研究は、中間計画段階を言語横断橋として利用する言語横断要約へのアプローチである$mu$PLANを提示する。
論文 参考訳(メタデータ) (2023-05-23T16:25:21Z) - LoRaLay: A Multilingual and Multimodal Dataset for Long Range and
Layout-Aware Summarization [19.301567079372436]
テキスト要約は、自然言語処理コミュニティにとって人気のある課題であり、研究の活発な領域である。
すべての公開可能な要約データセットは、プレーンテキストコンテンツのみを提供する。
視覚/レイ情報を伴う長距離要約のためのデータセットのコレクションであるLoRaLayを提示する。
論文 参考訳(メタデータ) (2023-01-26T18:50:54Z) - Cem Mil Podcasts: A Spoken Portuguese Document Corpus For Multi-modal,
Multi-lingual and Multi-Dialect Information Access Research [6.512858090111306]
本稿では,学術研究目的でリリースされたポルトガル語のポッドキャストデータセットについて述べる。
ブラジルとポルトガルの方言の分布に関する情報だけでなく、収集されたデータのサンプル、収集に関する記述的な統計について概説する。
論文 参考訳(メタデータ) (2022-09-23T21:41:10Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。