論文の概要: Long-Document Cross-Lingual Summarization
- arxiv url: http://arxiv.org/abs/2212.00586v1
- Date: Thu, 1 Dec 2022 15:24:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 14:55:57.918703
- Title: Long-Document Cross-Lingual Summarization
- Title(参考訳): 長期文書の言語間相互要約
- Authors: Shaohui Zheng, Zhixu Li, Jiaan Wang, Jianfeng Qu, An Liu, Lei Zhao,
Zhigang Chen
- Abstract要約: 言語間の要約は、ある言語で与えられた文書に対して、ある言語で要約を生成することを目的としている。
長文書における CLS 研究を促進するため,最初の長文書 CLS データセットである Perseus を構築した。
ペルセウスの文書の平均の長さは2,000以上のトークンである。
- 参考スコア(独自算出の注目度): 15.806431267733819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-Lingual Summarization (CLS) aims at generating summaries in one
language for the given documents in another language. CLS has attracted wide
research attention due to its practical significance in the multi-lingual
world. Though great contributions have been made, existing CLS works typically
focus on short documents, such as news articles, short dialogues and guides.
Different from these short texts, long documents such as academic articles and
business reports usually discuss complicated subjects and consist of thousands
of words, making them non-trivial to process and summarize. To promote CLS
research on long documents, we construct Perseus, the first long-document CLS
dataset which collects about 94K Chinese scientific documents paired with
English summaries. The average length of documents in Perseus is more than two
thousand tokens. As a preliminary study on long-document CLS, we build and
evaluate various CLS baselines, including pipeline and end-to-end methods.
Experimental results on Perseus show the superiority of the end-to-end
baseline, outperforming the strong pipeline models equipped with sophisticated
machine translation systems. Furthermore, to provide a deeper understanding, we
manually analyze the model outputs and discuss specific challenges faced by
current approaches. We hope that our work could benchmark long-document CLS and
benefit future studies.
- Abstract(参考訳): 言語間要約(CLS)は、ある言語で与えられた文書の要約を生成することを目的としている。
CLSは多言語世界での実践的重要性から広く研究されている。
コントリビューションは多いが、既存のCRSの作品はニュース記事や短い対話、ガイドなどの短い文書に重点を置いている。
これらの短いテキストと異なり、学術論文やビジネスレポートのような長い文書は、通常複雑な主題を議論し、数千語からなるため、処理や要約が簡単ではない。
長文のCLS研究を促進するために、英語の要約と組み合わせた約94万の中国科学文書を収集する最初の長文のCLSデータセットPerseusを構築した。
ペルセウスの文書の平均の長さは2,000枚以上である。
長文書CLSの予備研究として,パイプラインやエンドツーエンドの手法を含む様々なCLSベースラインを構築し,評価する。
Perseusの実験結果は、高度な機械翻訳システムを備えた強力なパイプラインモデルよりも優れた、エンドツーエンドベースラインの優位性を示している。
さらに,モデルのアウトプットを手作業で分析し,現在のアプローチが直面する具体的な課題について議論する。
我々の研究が長期文書CLSをベンチマークし、将来の研究に役立つことを期待しています。
関連論文リスト
- Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Rich Semantic Knowledge Enhanced Large Language Models for Few-shot Chinese Spell Checking [21.799697177859898]
本稿では,RS-LLM (Rich Semantic based LLMs) というコンテキスト内学習手法を用いて,大規模言語モデル (LLM) を基礎モデルとして導入する。
少数の中国固有のリッチなセマンティック構造を導入することで、LCMは、数ショットのCSCタスクにおいてBERTベースのモデルよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-13T12:55:43Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - PEARL: Prompting Large Language Models to Plan and Execute Actions Over
Long Documents [78.27865456183397]
長い文書に対する推論を改善するためのフレームワークであるPEARLを提案する。
PEARLの各ステージは、最小限の人間の入力でゼロショットまたは少数ショットのプロンプトによって実装される。
PEARLをQuALITYデータセットの挑戦的なサブセットで評価し、長い物語テキストに対して複雑な推論を必要とする質問を含む。
論文 参考訳(メタデータ) (2023-05-23T23:06:04Z) - Towards Unifying Multi-Lingual and Cross-Lingual Summarization [43.89340385650822]
我々は多言語要約(MLS)と多言語要約(CLS)をより一般的な設定、すなわち多対多要約(M2MS)に統一することを目指している。
M2MS への第一歩として,M2MS が MLS や CLS よりも多言語でタスク知識を伝達できることを示す予備的研究を行った。
本稿では,3段階の事前学習を通して言語モデリング,言語横断能力,要約能力を学ぶ,事前学習型M2MSモデルであるPiscesを提案する。
論文 参考訳(メタデータ) (2023-05-16T06:53:21Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization [25.182666420286132]
自然に発生するCLSリソースの希少さを考えると、データセットの大部分は翻訳に頼らざるを得ない。
これにより、コードスイッチングのインスタンスを含む有機的辞書をキャプチャする自然発生のCLSペアを観測する能力を制限することができます。
我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
論文 参考訳(メタデータ) (2023-03-07T17:52:51Z) - Zero-Shot Cross-Lingual Summarization via Large Language Models [108.30673793281987]
言語間要約(CLS)は、異なる対象言語で要約を生成する。
近年のLarge Language Models (LLMs) の出現は、計算言語学コミュニティから広く注目を集めている。
本稿では,異なるパラダイムからゼロショットCLSを実行するために,LSMを誘導するために様々なプロンプトを経験的に使用した。
論文 参考訳(メタデータ) (2023-02-28T01:27:37Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Multi-LexSum: Real-World Summaries of Civil Rights Lawsuits at Multiple
Granularities [19.599298546562604]
マルチレックスサム (Multi-LexSum) は、公民権ライゲーション・クリアリングハウス (Civil Rights Litigation Clearinghouse) から9,280名の専門家が発行したサマリーのコレクションである。
トレーニングデータの高品質な要約にもかかわらず、最先端の要約モデルは、このタスクでは不十分である。
トレーニングデータにおける高品質な要約にもかかわらず、最先端の要約モデルは、このタスクでは不十分であることを示す。
論文 参考訳(メタデータ) (2022-06-22T07:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。