Fugu-MT 論文翻訳(概要): Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation

論文の概要: Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation

arxiv url: http://arxiv.org/abs/2306.12916v1
Date: Thu, 22 Jun 2023 14:31:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-23 14:16:40.509002
Title: Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation
Title（参考訳）: 言語間クロスタイム要約:データセット、モデル、評価
Authors: Ran Zhang, Jihed Ouni, Steffen Eger
Abstract要約: 言語間相互要約(CLCTS)は、文化的アクセシビリティ、情報共有、理解を改善する可能性がある。われわれはCLCTSコーパスを初めて構築し、英語とドイツ語の歴史的文章とウィキペディアの要約を活用している。本稿では,人間,ChatGPT,および最近の自動評価指標について報告する。
参考スコア（独自算出の注目度）: 23.14419851509905
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While summarization has been extensively researched in natural language processing (NLP), cross-lingual cross-temporal summarization (CLCTS) is a largely unexplored area that has the potential to improve cross-cultural accessibility, information sharing, and understanding. This paper comprehensively addresses the CLCTS task, including dataset creation, modeling, and evaluation. We build the first CLCTS corpus, leveraging historical fictive texts and Wikipedia summaries in English and German, and examine the effectiveness of popular transformer end-to-end models with different intermediate task finetuning tasks. Additionally, we explore the potential of ChatGPT for CLCTS as a summarizer and an evaluator. Overall, we report evaluations from humans, ChatGPT, and several recent automatic evaluation metrics where we find our intermediate task finetuned end-to-end models generate bad to moderate quality summaries; ChatGPT as a summarizer (without any finetuning) provides moderate to good quality outputs and as an evaluator correlates moderately with human evaluations though it is prone to giving lower scores. ChatGPT also seems to be very adept at normalizing historical text. We finally test ChatGPT in a scenario with adversarially attacked and unseen source documents and find that ChatGPT is better at omission and entity swap than negating against its prior knowledge.
Abstract（参考訳）: 要約は自然言語処理 (NLP) において広く研究されているが、言語間横断要約 (CLCTS) は、文化的アクセシビリティ、情報共有、理解を改善する可能性を持つ未発見領域である。本稿では、データセット作成、モデリング、評価を含むCLCTSタスクを包括的に扱う。我々は,最初のclctsコーパスを構築し,英語とドイツ語の歴史的文書とウィキペディア要約を活用し,中間タスクの微調整タスクが異なる汎用トランスフォーマティブエンドツーエンドモデルの有効性について検討した。さらに,CLCTS における ChatGPT の可能性について,要約器および評価器として検討する。全体として、人間、ChatGPT、および最近のいくつかの自動評価指標について報告し、中間タスクの微調整されたエンドツーエンドモデルは、中程度から中程度の品質の要約を生成し、(微調整なしで)要約器としてのChatGPTは、中程度から良質な出力を提供し、評価器は、低いスコアを与える傾向にあるものの、人間評価と中程度に相関する。 ChatGPTは、歴史的テキストの正規化にも非常に適しているようだ。最終的にChatGPTを攻撃的かつ見当たらないソース文書のシナリオでテストした結果、ChatGPTは以前の知識に反するよりも、省略性とエンティティスワップが優れていることがわかった。

関連論文リスト

Consistency Evaluation of News Article Summaries Generated by Large (and Small) Language Models [0.0]
大言語モデル (LLMs) は、流動的な抽象的な要約を生成することを約束しているが、ソーステキストに基づかない幻覚的な詳細を生成することができる。本稿では,TextRank,BART,Mistral-7B-Instruct,OpenAI GPT-3.5-Turboなど,さまざまな手法を用いてテキスト要約の探索を行う。 XL-Sumデータセットでテストすると,すべての要約モデルが一貫した要約を生成することがわかった。
論文参考訳（メタデータ） (2025-02-28T01:58:17Z)
Unraveling the Capabilities of Language Models in News Summarization [0.0]
この研究は、ニュース要約タスクのより小さなものに焦点を当てた、最新の20の言語モデルの包括的なベンチマークを提供する。本研究では,ゼロショットと少数ショットの学習設定に着目し,ロバストな評価手法を適用した。 GPT-3.5-Turbo と GPT-4 の優れた性能を強調した。
論文参考訳（メタデータ） (2025-01-30T04:20:16Z)
Evaluating Research Quality with Large Language Models: An Analysis of ChatGPT's Effectiveness with Different Settings and Inputs [3.9627148816681284]
本稿では、どのChatGPT入力がより良い品質スコア推定をもたらすかを評価する。最適な入力は記事のタイトルと抽象であり、平均的なChatGPTスコアは人間のスコアと0.67と相関している。
論文参考訳（メタデータ） (2024-08-13T09:19:21Z)
Information-Theoretic Distillation for Reference-less Summarization [67.51150817011617]
本稿では,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しい枠組みを提案する。我々は,教師モデルとしてPythia-2.8Bから出発する。我々は,ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトだが強力な要約器に到達した。
論文参考訳（メタデータ） (2024-03-20T17:42:08Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
Large language models for aspect-based sentiment analysis [0.0]
GPT-4 と GPT-3.5 の性能をゼロショット, 少ないショット, 微調整で評価した。微調整 GPT-3.5 は、共同アスペクト項抽出と極性分類タスクにおいて最先端の F1 スコア 83.8 を達成する。
論文参考訳（メタデータ） (2023-10-27T10:03:21Z)
mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。事実整合性評価モデルを利用して、多言語要約を改善する。
論文参考訳（メタデータ） (2022-12-20T19:52:41Z)
Prompted Opinion Summarization with GPT-3.5 [115.95460650578678]
GPT-3.5モデルは人体評価において非常に高い性能を示す。我々は,標準評価指標がこれを反映していないことを論じ,忠実性,事実性,汎用性を重視した3つの新しい指標を導入する。
論文参考訳（メタデータ） (2022-11-29T04:06:21Z)
News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文参考訳（メタデータ） (2022-09-26T01:04:52Z)
SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文参考訳（メタデータ） (2020-07-24T16:25:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。