論文の概要: Revisiting Sentence Union Generation as a Testbed for Text Consolidation
- arxiv url: http://arxiv.org/abs/2305.15605v1
- Date: Wed, 24 May 2023 22:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 18:23:40.657212
- Title: Revisiting Sentence Union Generation as a Testbed for Text Consolidation
- Title(参考訳): テキスト統合のためのテストベッドとしての文結合生成の再検討
- Authors: Eran Hirsch, Valentina Pyatkin, Ruben Wolhandler, Avi Caciularu, Asi
Shefer, Ido Dagan
- Abstract要約: 本稿では,テキスト統合能力を評価するために,文結合生成タスクを効果的に適切に定義されたテストベッドとして再考する。
我々は,文連合をクラウドソーシングし,これまでで最大の連合データセットを作成するための,洗練されたアノテーション方法論とツールを提案する。
次に、人間と自動両方の評価を含む、連合生成のための包括的評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 17.594941316215838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tasks involving text generation based on multiple input texts, such as
multi-document summarization, long-form question answering and contemporary
dialogue applications, challenge models for their ability to properly
consolidate partly-overlapping multi-text information. However, these tasks
entangle the consolidation phase with the often subjective and ill-defined
content selection requirement, impeding proper assessment of models'
consolidation capabilities. In this paper, we suggest revisiting the sentence
union generation task as an effective well-defined testbed for assessing text
consolidation capabilities, decoupling the consolidation challenge from
subjective content selection. To support research on this task, we present
refined annotation methodology and tools for crowdsourcing sentence union,
create the largest union dataset to date and provide an analysis of its rich
coverage of various consolidation aspects. We then propose a comprehensive
evaluation protocol for union generation, including both human and automatic
evaluation. Finally, as baselines, we evaluate state-of-the-art language models
on the task, along with a detailed analysis of their capacity to address
multi-text consolidation challenges and their limitations.
- Abstract(参考訳): 多文書要約、長文質問応答、現代対話アプリケーションなど、複数の入力テキストに基づくテキスト生成に関わるタスクは、部分重なり合う複数テキスト情報を適切に統合する能力に挑戦する。
しかし、これらのタスクは、しばしば主観的かつ未定義のコンテンツ選択要求と統合フェーズを結び付け、モデルの統合能力の適切な評価を妨げる。
本稿では,テキスト統合能力を評価するための効果的なテストベッドとして,文結合生成タスクを再考し,コンソリデーション課題を主観的コンテンツ選択から切り離すことを提案する。
この課題の研究を支援するために,文結合をクラウドソーシングし,これまでで最大の連合データセットを作成し,様々な統合面の豊富なカバレッジ分析を行うための,洗練されたアノテーション方法論とツールを提案する。
次に,人間と自動評価を含む統合生成のための包括的評価プロトコルを提案する。
最後に、ベースラインとして、タスクの最先端言語モデルを評価し、マルチテキスト統合の課題とその制限に対処する能力の詳細な分析を行う。
関連論文リスト
- Multi-Review Fusion-in-Context [20.681734117825822]
接地テキスト生成には、コンテンツ選択とコンテンツ統合の両方が必要である。
最近の研究で、各ステップごとに別々のコンポーネントを持つモジュラーアプローチが提案されている。
本研究は,マルチドキュメント・セッティングにおけるモジュール・テキスト・ジェネレーションのさらなる探求の基盤となるものである。
論文 参考訳(メタデータ) (2024-03-22T17:06:05Z) - LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Controlled Text Reduction [15.102190738450092]
textitControlled Text Reduction をスタンドアロンタスクとして形式化する。
モデルでは、対象情報すべてと対象情報のみを含む一貫性のあるテキストを生成する必要がある。
論文 参考訳(メタデータ) (2022-10-24T17:59:03Z) - NEWTS: A Corpus for News Topic-Focused Summarization [9.872518517174498]
本稿では,CNN/Dailymailデータセットに基づく最初の話題要約コーパスを提案する。
提案手法の有効性を検証し,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-05-31T10:01:38Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z) - Evaluation of Abstractive Summarisation Models with Machine Translation
in Deliberative Processes [23.249742737907905]
このデータセットは、主に文法的品質の低い複数の物語を単一のテキストで組み合わせることの難しさを反映している。
本稿では,市販機械翻訳モデルと組み合わせて,多種多様な抽象的要約モデルを広範囲に評価する。
生成した要約の流布,一貫性,関連性について有望な結果を得た。
論文 参考訳(メタデータ) (2021-10-12T09:23:57Z) - QA-Align: Representing Cross-Text Content Overlap by Aligning
Question-Answer Propositions [12.264795812337153]
本稿では,情報統合のための足場として,テキスト間の述語関係の整合性を提案する。
我々の設定はQA-SRLを利用して、質問応答ペアを用いて述語-論証関係をキャプチャする。
分析によると、私たちの新しいタスクはセマンティックに困難であり、語彙的類似性を超えてコンテンツの重複を捉えている。
論文 参考訳(メタデータ) (2021-09-26T17:19:48Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。