論文の概要: An Empirical Study of Many-to-Many Summarization with Large Language Models
- arxiv url: http://arxiv.org/abs/2505.12983v1
- Date: Mon, 19 May 2025 11:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.557383
- Title: An Empirical Study of Many-to-Many Summarization with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた多対多の要約に関する実証的研究
- Authors: Jiaan Wang, Fandong Meng, Zengkui Sun, Yunlong Liang, Yuxuan Cao, Jiarong Xu, Haoxiang Shi, Jie Zhou,
- Abstract要約: 大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。
本研究は,LLMのM2MS能力に関する系統的研究である。
- 参考スコア(独自算出の注目度): 82.10000188179168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many-to-many summarization (M2MS) aims to process documents in any language and generate the corresponding summaries also in any language. Recently, large language models (LLMs) have shown strong multi-lingual abilities, giving them the potential to perform M2MS in real applications. This work presents a systematic empirical study on LLMs' M2MS ability. Specifically, we first reorganize M2MS data based on eight previous domain-specific datasets. The reorganized data contains 47.8K samples spanning five domains and six languages, which could be used to train and evaluate LLMs. Then, we benchmark 18 LLMs in a zero-shot manner and an instruction-tuning manner. Fine-tuned traditional models (e.g., mBART) are also conducted for comparisons. Our experiments reveal that, zero-shot LLMs achieve competitive results with fine-tuned traditional models. After instruct-tuning, open-source LLMs can significantly improve their M2MS ability, and outperform zero-shot LLMs (including GPT-4) in terms of automatic evaluations. In addition, we demonstrate that this task-specific improvement does not sacrifice the LLMs' general task-solving abilities. However, as revealed by our human evaluation, LLMs still face the factuality issue, and the instruction tuning might intensify the issue. Thus, how to control factual errors becomes the key when building LLM summarizers in real applications, and is worth noting in future research.
- Abstract(参考訳): Many-to-Many summarization (M2MS) は、どんな言語でも文書を処理し、対応する要約を生成することを目的としている。
近年,大規模言語モデル (LLMs) は多言語能力が強く,実アプリケーションでM2MSを実行する可能性が高まっている。
本研究は,LLMのM2MS能力に関する系統的研究である。
具体的には、まず8つのドメイン固有のデータセットに基づいてM2MSデータを再構成する。
再編されたデータには、5つのドメインと6つの言語にまたがる47.8Kサンプルが含まれており、LLMのトレーニングと評価に使用できる。
次に、ゼロショット方式と命令調整方式で18個のLLMをベンチマークする。
比較のために、微調整された伝統的なモデル(例えば、mBART)も実行される。
実験の結果,ゼロショットLLMは微調整された従来のモデルと競合する結果が得られることがわかった。
インストラクションチューニング後、オープンソースのLLMはM2MS能力を大幅に向上させ、自動評価ではゼロショットLLM(GPT-4を含む)よりも優れる。
さらに、このタスク固有の改善は、LCMの一般的なタスク解決能力を犠牲にしないことを示した。
しかし、人間の評価によって明らかになったように、LLMは依然として事実性の問題に直面しており、命令チューニングは問題をさらに強化する可能性がある。
したがって、実際のアプリケーションでLCMサマリを構築する際には、実際のエラーを制御する方法が鍵となり、将来の研究で注目に値する。
関連論文リスト
- What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - Improving the Ability of Pre-trained Language Model by Imparting Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - Large Language Models: A Survey [66.39828929831017]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。