論文の概要: Diversity Over Size: On the Effect of Sample and Topic Sizes for
Argument Mining Datasets
- arxiv url: http://arxiv.org/abs/2205.11472v2
- Date: Sat, 15 Jul 2023 14:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 00:49:29.727927
- Title: Diversity Over Size: On the Effect of Sample and Topic Sizes for
Argument Mining Datasets
- Title(参考訳): サイズに対する多様性--Argument Mining Datasetにおけるサンプルサイズとトピックサイズの影響
- Authors: Benjamin Schiller, Johannes Daxenberger, Iryna Gurevych
- Abstract要約: 大きなArgument Miningデータセットはまれであり、議論文の認識には専門家の知識が必要である。
大きなArgument Miningデータセットを作成するコストと複雑さを考えると、許容可能なパフォーマンスがデータセットのサイズを拡大するために必要かどうかを問う。
この結果から,慎重に構成したトレーニングサンプルと,関連するタスクに事前学習したモデルを用いることで,トレーニングサンプルのサイズを少なくとも85%減らしながら,最大性能の95%を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 65.91772010586605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of Argument Mining, that is extracting argumentative sentences for a
specific topic from large document sources, is an inherently difficult task for
machine learning models and humans alike, as large Argument Mining datasets are
rare and recognition of argumentative sentences requires expert knowledge. The
task becomes even more difficult if it also involves stance detection of
retrieved arguments. Given the cost and complexity of creating suitably large
Argument Mining datasets, we ask whether it is necessary for acceptable
performance to have datasets growing in size. Our findings show that, when
using carefully composed training samples and a model pretrained on related
tasks, we can reach 95% of the maximum performance while reducing the training
sample size by at least 85%. This gain is consistent across three Argument
Mining tasks on three different datasets. We also publish a new dataset for
future benchmarking.
- Abstract(参考訳): 大きな文書ソースから特定のトピックの議論文を抽出する議論マイニングのタスクは、機械学習モデルや人間にとって本質的に難しいタスクであり、大きな議論マイニングデータセットは稀であり、議論文の認識には専門家の知識が必要である。
検索された引数のスタンス検出も含むと、タスクはさらに難しくなります。
適切に大きなArgument Miningデータセットを作成するコストと複雑さを考えると、許容可能なパフォーマンスがデータセットのサイズを拡大するために必要かどうかを問う。
この結果から,慎重に構成したトレーニングサンプルと,関連するタスクに事前学習したモデルを用いることで,トレーニングサンプルのサイズを少なくとも85%減らしながら,最大性能の95%を達成できることがわかった。
このゲインは、3つの異なるデータセット上の3つのArgument Miningタスク間で一貫性がある。
将来のベンチマークのための新しいデータセットも公開しています。
関連論文リスト
- Multi-Task Learning Improves Performance In Deep Argument Mining Models [2.2312474084968024]
議論マイニングタスクは、議論マイニングのためのマルチタスクアプローチを実装することで、共通の意味と論理構造を共有していることを示す。
本研究は,テキストから議論的手法を抽出するための総合的アプローチを提案するとともに,課題が相似であることから,議論的マイニングにおいて重要である。
論文 参考訳(メタデータ) (2023-07-03T23:42:29Z) - DiSparse: Disentangled Sparsification for Multitask Model Compression [92.84435347164435]
DiSparseは、シンプルで効果的で、第一級のマルチタスクプルーニングとスパーストレーニングスキームである。
実験の結果,様々な設定や設定において優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-09T17:57:46Z) - IAM: A Comprehensive and Large-Scale Dataset for Integrated Argument
Mining Tasks [59.457948080207174]
本稿では,一連の議論マイニングタスクに適用可能なIAMという,包括的で大規模なデータセットを提案する。
データセットの70k近い文は、引数特性に基づいて完全に注釈付けされている。
議論準備プロセスに関連する2つの新しい統合された議論マイニングタスクを提案する。(1) 姿勢分類付きクレーム抽出(CESC)と(2) クレーム・エビデンス・ペア抽出(CEPE)である。
論文 参考訳(メタデータ) (2022-03-23T08:07:32Z) - Instance-Level Task Parameters: A Robust Multi-task Weighting Framework [17.639472693362926]
最近の研究によると、ディープニューラルネットワークは、複数の関連するタスク間で共有表現を学習することで、マルチタスク学習の恩恵を受けている。
トレーニングプロセスは、データセットの各インスタンスに対するタスクの最適な重み付けを規定します。
我々は,SURREALとCityScapesのデータセットを用いて,人間の形状とポーズ推定,深さ推定,セマンティックセグメンテーションタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-06-11T02:35:42Z) - Aspect-Based Argument Mining [2.3148470932285665]
Aspect-Based Argument Mining (ABAM) の課題として,Aspect Term extract (ATE) と Nested Term extract (NS) の基本的なサブタスクについて述べる。
私たちはアスペクトをメインポイント(s)引数ユニットが対処していると見なしています。
この情報は、議論のランク付け、議論の要約、生成などの下流タスクや、アスペクトレベルの逆問題探索に重要である。
論文 参考訳(メタデータ) (2020-11-01T21:57:51Z) - Multilingual Argument Mining: Datasets and Analysis [9.117984896907782]
非英語言語における引数マイニングタスクに対処するために,多言語BERTモデルを用いた移動学習の可能性を検討する。
このような手法は,議論の姿勢の分類や証拠の検出に適しているが,議論の質を評価するには適していないことを示す。
複数の言語で10k以上の引数を持つ人為的なデータセットと、英語データセットの機械翻訳を提供する。
論文 参考訳(メタデータ) (2020-10-13T14:49:10Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。