論文の概要: HeSum: a Novel Dataset for Abstractive Text Summarization in Hebrew
- arxiv url: http://arxiv.org/abs/2406.03897v1
- Date: Thu, 6 Jun 2024 09:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 15:29:45.912300
- Title: HeSum: a Novel Dataset for Abstractive Text Summarization in Hebrew
- Title(参考訳): HeSum: ヘブライ語における抽象テキスト要約のための新しいデータセット
- Authors: Tzuf Paz-Argaman, Itai Mondshine, Asaf Achi Mordechai, Reut Tsarfaty,
- Abstract要約: HeSum(ヘサム)は、現代ヘブライ語で抽象的なテキスト要約のために設計されたベンチマークである。
HeSumは、プロが書いたヘブライ語ニュースサイトから入手した1万記事と1万記事のペアで構成されている。
言語学的分析は、ヘサムの高い抽象性とユニークな形態的課題を裏付ける。
- 参考スコア(独自算出の注目度): 12.320161893898735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) excel in various natural language tasks in English, their performance in lower-resourced languages like Hebrew, especially for generative tasks such as abstractive summarization, remains unclear. The high morphological richness in Hebrew adds further challenges due to the ambiguity in sentence comprehension and the complexities in meaning construction. In this paper, we address this resource and evaluation gap by introducing HeSum, a novel benchmark specifically designed for abstractive text summarization in Modern Hebrew. HeSum consists of 10,000 article-summary pairs sourced from Hebrew news websites written by professionals. Linguistic analysis confirms HeSum's high abstractness and unique morphological challenges. We show that HeSum presents distinct difficulties for contemporary state-of-the-art LLMs, establishing it as a valuable testbed for generative language technology in Hebrew, and MRLs generative challenges in general.
- Abstract(参考訳): 大きな言語モデル(LLM)は英語の様々な自然言語タスクに優れるが、ヘブライ語のような低リソース言語、特に抽象的な要約のような生成的なタスクにおいて、その性能は未だ不明である。
ヘブライ語における高い形態的豊かさは、文理解の曖昧さと建設の意味の複雑さにより、さらなる課題をもたらす。
本稿では,現代ヘブライ語における抽象テキスト要約に特化して設計された新しいベンチマークHeSumを導入することで,このリソースと評価ギャップに対処する。
HeSumは、プロが書いたヘブライ語ニュースサイトから入手した1万記事と1万記事のペアで構成されている。
言語学的分析は、ヘサムの高い抽象性とユニークな形態的課題を裏付ける。
ヘブライ語における生成言語技術のための貴重なテストベッドとして,HeSumは現代LLMに対して,またMRLの一般的な生成課題として,明確な困難を呈していることを示す。
関連論文リスト
- Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Multilingual Text Representation [3.4447129363520337]
現代のNLPのブレークスルーには、100以上の言語でタスクを実行できる大規模な多言語モデルが含まれている。
最先端の言語モデルは、単語の単純な1ホット表現から始まり、長い道のりを歩んだ。
我々は、言語民主化の潜在能力が、既知の限界を超えてどのように得られるかについて論じる。
論文 参考訳(メタデータ) (2023-09-02T14:21:22Z) - Echoes from Alexandria: A Large Resource for Multilingual Book
Summarization [99.86355187131349]
アレクサンドリアからのEcho」は多言語書籍要約のための大きな資源である。
Echoesには、3つの新しいデータセットがある: i) Echo-Wiki, for multilingual book summarization, ii) Echo-XSum, for extremely-compressive multilingual book summarization, 3)) Echo-FairySum, for extractive book summarization。
論文 参考訳(メタデータ) (2023-06-07T11:01:39Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - ParaShoot: A Hebrew Question Answering Dataset [22.55706811131828]
ParaShootは現代のヘブライ語で最初の質問応答データセットである。
我々は最近リリースされたヘブライ語のためのBERTスタイルのモデルを用いて,最初のベースライン結果を提供する。
論文 参考訳(メタデータ) (2021-09-23T11:59:38Z) - Generalising Multilingual Concept-to-Text NLG with Language Agnostic
Delexicalisation [0.40611352512781856]
概念からテキストへの自然言語生成は、自然言語で入力の意味を表現するタスクである。
多言語事前学習型埋め込みを用いた新しいデレクサライズ手法であるLanguage Agnostic Delexicalizationを提案する。
5つのデータセットと5つの言語で実験した結果、多言語モデルは概念対テキストで単言語モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-05-07T17:48:53Z) - Neural Abstractive Text Summarizer for Telugu Language [0.0]
提案手法は注意機構を有するエンコーダ・デコーダシーケンシャルモデルに基づく。
我々は、このモデルを手作業で作成したデータセットに適用し、ソーステキストの1文要約を生成する。
論文 参考訳(メタデータ) (2021-01-18T15:22:50Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。