論文の概要: Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation
- arxiv url: http://arxiv.org/abs/2306.12916v2
- Date: Thu, 13 Jul 2023 16:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 16:41:52.693799
- Title: Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation
- Title(参考訳): 言語間クロスタイム要約:データセット、モデル、評価
- Authors: Ran Zhang, Jihed Ouni, Steffen Eger
- Abstract要約: 言語間の時間的相互要約は、文化間のアクセシビリティと理解を改善する可能性がある。
われわれはCLCTSコーパスを初めて構築し、英語とドイツ語の歴史的文章とウィキペディアの要約を活用している。
本稿では,人間,ChatGPT,および最近の自動評価指標について報告する。
- 参考スコア(独自算出の注目度): 23.14419851509905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While summarization has been extensively researched in natural language
processing (NLP), cross-lingual cross-temporal summarization (CLCTS) is a
largely unexplored area that has the potential to improve cross-cultural
accessibility and understanding. This paper comprehensively addresses the CLCTS
task, including dataset creation, modeling, and evaluation. We build the first
CLCTS corpus, leveraging historical fictive texts and Wikipedia summaries in
English and German, and examine the effectiveness of popular transformer
end-to-end models with different intermediate finetuning tasks. Additionally,
we explore the potential of ChatGPT for CLCTS as a summarizer and an evaluator.
Overall, we report evaluations from humans, ChatGPT, and several recent
automatic evaluation metrics where we find that our intermediate task finetuned
end-to-end models generate bad to moderate quality summaries; ChatGPT as a
summarizer (without any finetuning) provides moderate to good quality outputs
and as an evaluator correlates moderately with human evaluations but is prone
to giving lower scores. ChatGPT also seems very adept at normalizing historical
text and outperforms context-unaware spelling normalization tools such as
Norma. We finally test ChatGPT in a scenario with adversarially attacked and
unseen source documents and find that ChatGPT profits from its prior knowledge
to a certain degree, with better performances for omission and entity swap than
negation against its prior knowledge. This benefit inflates its assessed
quality as ChatGPT performs slightly worse for unseen source documents compared
to seen documents. We additionally introspect our models' performances to find
that longer, older and more complex source texts (all of which are more
characteristic for historical language variants) are harder to summarize for
all models, indicating the difficulty of the CLCTS task.
- Abstract(参考訳): 要約は自然言語処理(NLP)において広範囲に研究されているが、言語間相互要約(CLCTS)は、文化的アクセシビリティと理解を改善する可能性を持つ、ほとんど探索されていない領域である。
本稿では、データセット作成、モデリング、評価を含むCLCTSタスクを包括的に扱う。
我々は,最初のclctsコーパスを構築し,英語とドイツ語の歴史的記述テキストとwikipedia要約を活用し,中間的微調整タスクの異なるポピュラートランスフォーマティブ・エンドツーエンドモデルの有効性を検討する。
さらに,CLCTS における ChatGPT の可能性について,要約器および評価器として検討する。
全体として、人間、ChatGPT、および最近のいくつかの自動評価指標から、中間タスクの微調整されたエンドツーエンドモデルは、中程度から中程度の品質の要約を生成し、(微調整なしで)要約器としてのChatGPTは、適度から良質な出力を提供し、評価器は、人的評価と中程度に相関するが、低いスコアを与える傾向にある。
ChatGPTは歴史的テキストの正規化にも優れており、Normaのような文脈に依存しないスペル正規化ツールよりも優れている。
最終的にChatGPTを攻撃的かつ見当たらないソース文書のシナリオでテストし、ChatGPTが先行知識からある程度利益を上げ、事前知識に対する否定よりも省略やエンティティスワップのパフォーマンスが向上することを確認した。
この利点は、ChatGPTが未確認のソース文書に対して、見ないドキュメントに対してわずかに悪化するので、評価された品質を膨らませる。
さらに、より長く、より古い、より複雑なソーステキスト(いずれも歴史言語に特徴がある)が全てのモデルに対して要約するのが難しく、clctsタスクの難しさを示すために、モデルのパフォーマンスを内省します。
関連論文リスト
- Chatbots Are Not Reliable Text Annotators [0.0]
ChatGPTはクローズドソース製品で、透明性、コスト、データ保護に関して大きな欠点があります。
オープンソースの(OS)大規模言語モデル(LLM)の最近の進歩は、これらの課題を解決する代替手段を提供する。
論文 参考訳(メタデータ) (2023-11-09T22:28:14Z) - Hybrid Long Document Summarization using C2F-FAR and ChatGPT: A
Practical Study [1.933681537640272]
ChatGPTは、大規模言語モデル(LLM)分野における最新のブレークスルーである。
本稿では,ビジネス記事や書籍などの長い文書のハイブリッド抽出と要約パイプラインを提案する。
以上の結果から,ChatGPTの使用は長文を要約するための非常に有望なアプローチであるが,まだ成熟していないことが示唆された。
論文 参考訳(メタデータ) (2023-06-01T21:58:33Z) - Extractive Summarization via ChatGPT for Faithful Summary Generation [12.966825834765814]
本稿では,抽出要約におけるChatGPTの性能について,徹底的に評価する。
また,ChatGPTは既存の教師付きシステムと比較して,ROUGEスコアにおいて劣る抽出総和性能を示した。
ChatGPTを用いた抽出列生成パイプラインの適用は、要約忠実度の観点から抽象的ベースラインよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2023-04-09T08:26:04Z) - ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。
一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。
しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文 参考訳(メタデータ) (2023-03-27T22:30:39Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Exploring the Limits of ChatGPT for Query or Aspect-based Text
Summarization [28.104696513516117]
GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。
最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。
実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-02-16T04:41:30Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。