論文の概要: Which Side Are You On? A Multi-task Dataset for End-to-End Argument Summarisation and Evaluation
- arxiv url: http://arxiv.org/abs/2406.03151v2
- Date: Thu, 6 Jun 2024 09:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:01:03.532810
- Title: Which Side Are You On? A Multi-task Dataset for End-to-End Argument Summarisation and Evaluation
- Title(参考訳): どちらをやっているのか? エンドツーエンドの議論の要約と評価のためのマルチタスクデータセット
- Authors: Hao Li, Yuping Wu, Viktor Schlegel, Riza Batista-Navarro, Tharindu Madusanka, Iqra Zahid, Jiayan Zeng, Xiaochi Wang, Xinran He, Yizhi Li, Goran Nenadic,
- Abstract要約: 本稿では,議論のための議論的エッセイを作成するエンドツーエンドの過程を捉えた議論マイニングデータセットを提案する。
私たちのデータセットには、上記のタスクをサポートするさまざまなプロパティで完全に注釈付けされたクレームの14万の例が含まれています。
ベンチマークでは,各タスクに対する有望な結果を示す一方で,4つのタスクすべてに対するエンドツーエンドのパフォーマンスが著しく低下していることが判明した。
- 参考スコア(独自算出の注目度): 13.205613282888676
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the recent advances of large language models (LLMs), it is no longer infeasible to build an automated debate system that helps people to synthesise persuasive arguments. Previous work attempted this task by integrating multiple components. In our work, we introduce an argument mining dataset that captures the end-to-end process of preparing an argumentative essay for a debate, which covers the tasks of claim and evidence identification (Task 1 ED), evidence convincingness ranking (Task 2 ECR), argumentative essay summarisation and human preference ranking (Task 3 ASR) and metric learning for automated evaluation of resulting essays, based on human feedback along argument quality dimensions (Task 4 SQE). Our dataset contains 14k examples of claims that are fully annotated with the various properties supporting the aforementioned tasks. We evaluate multiple generative baselines for each of these tasks, including representative LLMs. We find, that while they show promising results on individual tasks in our benchmark, their end-to-end performance on all four tasks in succession deteriorates significantly, both in automated measures as well as in human-centred evaluation. This challenge presented by our proposed dataset motivates future research on end-to-end argument mining and summarisation. The repository of this project is available at https://github.com/HarrywillDr/ArgSum-Datatset
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩により、人々が説得力のある議論を合成するのに役立つ自動討論システムを構築することはもはや不可能である。
以前の作業では、複数のコンポーネントを統合することでこのタスクを試みていた。
本研究では,議論のための議論的エッセイ作成の終末過程を捉えた議論マイニングデータセットを導入し,主張的エッセイ作成作業(第1章ED),証拠検証性ランキング(第2章ECR),議論的エッセイ要約と人選好ランキング(第3章ASR),および議論的エッセイの自動評価のための計量学習(第4章SQE)について述べる。
私たちのデータセットには、上記のタスクをサポートするさまざまなプロパティで完全に注釈付けされたクレームの14万の例が含まれています。
代表的LCMを含む各タスクに対して,複数の生成ベースラインを評価する。
その結果、ベンチマークでは、個々のタスクに対して有望な結果を示す一方で、自動測定と人中心評価の両方において、4つのタスクの連続的なエンドツーエンドのパフォーマンスが著しく低下していることが判明した。
提案したデータセットが示す課題は、エンド・ツー・エンドの議論マイニングと要約に関する今後の研究を動機付けている。
このプロジェクトのリポジトリはhttps://github.com/HarrywillDr/ArgSum-Datatsetで公開されている。
関連論文リスト
- Assessing Good, Bad and Ugly Arguments Generated by ChatGPT: a New Dataset, its Methodology and Associated Tasks [1.6427658855248812]
本稿では,ChatGPTによる論証から,良質・悪質・悪質な論証を得る手法を提案する。
次に、多様な引数の集合であるArGPTを含む新しいデータセットについて述べる。
人工的に生成したデータは人的議論とよく関連していることを示し、定義したタスクのシステムのトレーニングとテストを行うツールとして有用であることを示す。
論文 参考訳(メタデータ) (2024-06-21T13:27:10Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。
この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - UniSumm and SummZoo: Unified Model and Diverse Benchmark for Few-Shot
Summarization [54.59104881168188]
textscUniSummは、複数の要約タスクで事前訓練された、統合された数ショットの要約モデルである。
textscSummZooは、スクリーンショットの要約をよりよく評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2022-11-17T18:54:47Z) - Full-Text Argumentation Mining on Scientific Publications [3.8754200816873787]
フルテキストSAMに対してADURとAREを組み合わせた逐次パイプラインモデルを提案する。
両サブタスクにおける事前学習言語モデル(PLM)の性能について,最初の解析を行った。
本稿では,非連続型ADUと談話コネクタの解釈が重要な課題であることを示す。
論文 参考訳(メタデータ) (2022-10-24T10:05:30Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - Automated Evaluation for Student Argumentative Writing: A Survey [2.9466390764652415]
本稿では,学生論文の自動評価という,未研究領域における研究成果の調査と整理を行う。
全体論的なエッセイ評価に焦点を当てた従来の自動筆記評価とは異なり、この分野はより具体的であり、議論的なエッセイを評価し、特定のフィードバックを提供する。
論文 参考訳(メタデータ) (2022-05-09T07:27:59Z) - IAM: A Comprehensive and Large-Scale Dataset for Integrated Argument
Mining Tasks [59.457948080207174]
本稿では,一連の議論マイニングタスクに適用可能なIAMという,包括的で大規模なデータセットを提案する。
データセットの70k近い文は、引数特性に基づいて完全に注釈付けされている。
議論準備プロセスに関連する2つの新しい統合された議論マイニングタスクを提案する。(1) 姿勢分類付きクレーム抽出(CESC)と(2) クレーム・エビデンス・ペア抽出(CEPE)である。
論文 参考訳(メタデータ) (2022-03-23T08:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。