論文の概要: Diversity Over Size: On the Effect of Sample and Topic Sizes for Topic-Dependent Argument Mining Datasets
- arxiv url: http://arxiv.org/abs/2205.11472v3
- Date: Mon, 07 Oct 2024 15:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:40:05.070358
- Title: Diversity Over Size: On the Effect of Sample and Topic Sizes for Topic-Dependent Argument Mining Datasets
- Title(参考訳): サイズによる多様性:トピック依存の議論マイニングデータセットにおけるサンプルサイズとトピックサイズの影響
- Authors: Benjamin Schiller, Johannes Daxenberger, Andreas Waldis, Iryna Gurevych,
- Abstract要約: 本研究では,アーギュメント・マイニング・データセットの構成が,少数・ゼロショット設定における影響について検討する。
実験結果から, モデル性能の達成には微調整が必須であるが, 慎重に構成したトレーニングサンプルを用いることで, トレーニングサンプルサイズを最大90%まで下げることで, 最大性能の95%を達成できることがわかった。
- 参考スコア(独自算出の注目度): 49.65208986436848
- License:
- Abstract: The task of Argument Mining, that is extracting and classifying argument components for a specific topic from large document sources, is an inherently difficult task for machine learning models and humans alike, as large Argument Mining datasets are rare and recognition of argument components requires expert knowledge. The task becomes even more difficult if it also involves stance detection of retrieved arguments. In this work, we investigate the effect of Argument Mining dataset composition in few- and zero-shot settings. Our findings show that, while fine-tuning is mandatory to achieve acceptable model performance, using carefully composed training samples and reducing the training sample size by up to almost 90% can still yield 95% of the maximum performance. This gain is consistent across three Argument Mining tasks on three different datasets. We also publish a new dataset for future benchmarking.
- Abstract(参考訳): 大規模なドキュメントソースから特定のトピックの引数コンポーネントを抽出し分類するArgument Miningのタスクは、大規模なArgument Miningデータセットはまれであり、引数コンポーネントの認識には専門家の知識を必要とするため、機械学習モデルや人間にとっても本質的に難しいタスクである。
検索された引数のスタンス検出も含むと、タスクはさらに難しくなります。
本研究では,少数・ゼロショット設定におけるArgument Miningデータセット合成の効果について検討する。
実験結果から, モデル性能の達成には微調整が必須であるが, 慎重に構成したトレーニングサンプルを用いることで, トレーニングサンプルサイズを最大90%まで下げることで, 最大性能の95%を達成できることがわかった。
このゲインは、3つの異なるデータセット上の3つのArgument Miningタスク間で一貫性がある。
また、将来のベンチマークのための新しいデータセットも公開しています。
関連論文リスト
- Multi-Task Learning Improves Performance In Deep Argument Mining Models [2.2312474084968024]
議論マイニングタスクは、議論マイニングのためのマルチタスクアプローチを実装することで、共通の意味と論理構造を共有していることを示す。
本研究は,テキストから議論的手法を抽出するための総合的アプローチを提案するとともに,課題が相似であることから,議論的マイニングにおいて重要である。
論文 参考訳(メタデータ) (2023-07-03T23:42:29Z) - DiSparse: Disentangled Sparsification for Multitask Model Compression [92.84435347164435]
DiSparseは、シンプルで効果的で、第一級のマルチタスクプルーニングとスパーストレーニングスキームである。
実験の結果,様々な設定や設定において優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-09T17:57:46Z) - IAM: A Comprehensive and Large-Scale Dataset for Integrated Argument
Mining Tasks [59.457948080207174]
本稿では,一連の議論マイニングタスクに適用可能なIAMという,包括的で大規模なデータセットを提案する。
データセットの70k近い文は、引数特性に基づいて完全に注釈付けされている。
議論準備プロセスに関連する2つの新しい統合された議論マイニングタスクを提案する。(1) 姿勢分類付きクレーム抽出(CESC)と(2) クレーム・エビデンス・ペア抽出(CEPE)である。
論文 参考訳(メタデータ) (2022-03-23T08:07:32Z) - Instance-Level Task Parameters: A Robust Multi-task Weighting Framework [17.639472693362926]
最近の研究によると、ディープニューラルネットワークは、複数の関連するタスク間で共有表現を学習することで、マルチタスク学習の恩恵を受けている。
トレーニングプロセスは、データセットの各インスタンスに対するタスクの最適な重み付けを規定します。
我々は,SURREALとCityScapesのデータセットを用いて,人間の形状とポーズ推定,深さ推定,セマンティックセグメンテーションタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-06-11T02:35:42Z) - Aspect-Based Argument Mining [2.3148470932285665]
Aspect-Based Argument Mining (ABAM) の課題として,Aspect Term extract (ATE) と Nested Term extract (NS) の基本的なサブタスクについて述べる。
私たちはアスペクトをメインポイント(s)引数ユニットが対処していると見なしています。
この情報は、議論のランク付け、議論の要約、生成などの下流タスクや、アスペクトレベルの逆問題探索に重要である。
論文 参考訳(メタデータ) (2020-11-01T21:57:51Z) - Multilingual Argument Mining: Datasets and Analysis [9.117984896907782]
非英語言語における引数マイニングタスクに対処するために,多言語BERTモデルを用いた移動学習の可能性を検討する。
このような手法は,議論の姿勢の分類や証拠の検出に適しているが,議論の質を評価するには適していないことを示す。
複数の言語で10k以上の引数を持つ人為的なデータセットと、英語データセットの機械翻訳を提供する。
論文 参考訳(メタデータ) (2020-10-13T14:49:10Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。