論文の概要: On the Effect of Sample and Topic Sizes for Argument Mining Datasets
- arxiv url: http://arxiv.org/abs/2205.11472v1
- Date: Mon, 23 May 2022 17:14:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 17:02:14.839788
- Title: On the Effect of Sample and Topic Sizes for Argument Mining Datasets
- Title(参考訳): Argument Mining Datasetにおけるサンプルサイズとトピックサイズの影響について
- Authors: Benjamin Schiller, Johannes Daxenberger, Iryna Gurevych
- Abstract要約: 大規模なデータセットはまれであり、議論文の認識には専門家の知識が必要である。
タスクの最近のデータセットは、これまで以上に大きくなり、その結果、よりコストがかかる傾向にある。
本研究では,パラメータマイニングの許容性能が,データセットのサイズが大きくなるか,あるいはそうでなければ,最適なパフォーマンスのためにデータセットをどの程度小さくする必要があるかを問う。
- 参考スコア(独自算出の注目度): 65.91772010586605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of Argument Mining, that is extracting argumentative sentences for a
specific topic from large document sources, is an inherently difficult task for
machine learning models and humans alike, as large datasets are rare and
recognition of argumentative sentences requires expert knowledge. The task
becomes even more difficult when it also involves stance detection of retrieved
arguments. Recent datasets for the task tend to grow evermore large and hence
more costly. In this work, we inquire whether it is necessary for acceptable
performance of argument mining to have datasets growing in size or, if not, how
smaller datasets have to be composed for optimal performance. We also publish a
newly created dataset for future benchmarking.
- Abstract(参考訳): 大きなドキュメントソースから特定のトピックの議論文を抽出する議論マイニングのタスクは、機械学習モデルや人間にとって本質的に難しいタスクであり、大きなデータセットは稀であり、議論文の認識には専門家の知識が必要である。
検索された引数のスタンス検出も伴うと、タスクはさらに難しくなります。
タスクの最近のデータセットは、ますます大きくなり、従ってコストがかかる傾向がある。
本研究では,パラメータマイニングの許容性能が,データセットのサイズが大きくなるか,あるいはそうでなければ,最適なパフォーマンスのためにデータセットを構成する必要があるかを問う。
また、将来のベンチマークのために新しく作成されたデータセットを公開します。
関連論文リスト
- Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Multi-Task Learning Improves Performance In Deep Argument Mining Models [2.2312474084968024]
議論マイニングタスクは、議論マイニングのためのマルチタスクアプローチを実装することで、共通の意味と論理構造を共有していることを示す。
本研究は,テキストから議論的手法を抽出するための総合的アプローチを提案するとともに,課題が相似であることから,議論的マイニングにおいて重要である。
論文 参考訳(メタデータ) (2023-07-03T23:42:29Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Learning towards Selective Data Augmentation for Dialogue Generation [52.540330534137794]
すべての事例が増補作業に有益である訳ではなく、増補に適した事例は以下の2つの属性に従うべきであると我々は主張する。
応答生成タスクに対してSDA(Selective Data Augmentation framework)を提案する。
論文 参考訳(メタデータ) (2023-03-17T01:26:39Z) - IAM: A Comprehensive and Large-Scale Dataset for Integrated Argument
Mining Tasks [59.457948080207174]
本稿では,一連の議論マイニングタスクに適用可能なIAMという,包括的で大規模なデータセットを提案する。
データセットの70k近い文は、引数特性に基づいて完全に注釈付けされている。
議論準備プロセスに関連する2つの新しい統合された議論マイニングタスクを提案する。(1) 姿勢分類付きクレーム抽出(CESC)と(2) クレーム・エビデンス・ペア抽出(CEPE)である。
論文 参考訳(メタデータ) (2022-03-23T08:07:32Z) - Instance-Level Task Parameters: A Robust Multi-task Weighting Framework [17.639472693362926]
最近の研究によると、ディープニューラルネットワークは、複数の関連するタスク間で共有表現を学習することで、マルチタスク学習の恩恵を受けている。
トレーニングプロセスは、データセットの各インスタンスに対するタスクの最適な重み付けを規定します。
我々は,SURREALとCityScapesのデータセットを用いて,人間の形状とポーズ推定,深さ推定,セマンティックセグメンテーションタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-06-11T02:35:42Z) - Multilingual Argument Mining: Datasets and Analysis [9.117984896907782]
非英語言語における引数マイニングタスクに対処するために,多言語BERTモデルを用いた移動学習の可能性を検討する。
このような手法は,議論の姿勢の分類や証拠の検出に適しているが,議論の質を評価するには適していないことを示す。
複数の言語で10k以上の引数を持つ人為的なデータセットと、英語データセットの機械翻訳を提供する。
論文 参考訳(メタデータ) (2020-10-13T14:49:10Z) - From Arguments to Key Points: Towards Automatic Argument Summarization [17.875273745811775]
1トピックあたりのキーポイントの数は、たいていの場合、議論の大部分をカバーするのに十分であることを示す。
さらに、ドメインの専門家が事前にこれらのキーポイントを予測できることがわかりました。
論文 参考訳(メタデータ) (2020-05-04T16:24:21Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。