論文の概要: Limited Generalizability in Argument Mining: State-Of-The-Art Models Learn Datasets, Not Arguments
- arxiv url: http://arxiv.org/abs/2505.22137v1
- Date: Wed, 28 May 2025 09:00:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.518865
- Title: Limited Generalizability in Argument Mining: State-Of-The-Art Models Learn Datasets, Not Arguments
- Title(参考訳): argument Miningにおける限定的な一般化可能性:State-Of-The-Art Models Learns Datasets, not Arguments
- Authors: Marc Feger, Katarina Boland, Stefan Dietze,
- Abstract要約: この研究は、このような最先端モデルの大規模な再評価を初めて提供する。
我々は,4つの変圧器,3つの標準,および1つの拡張を,より優れた一般化のためのコントラスト事前学習で評価した。
以上の結果から,これらのモデルは,内容語に結びついた語彙的ショートカットに依存する傾向が示唆された。
- 参考スコア(独自算出の注目度): 3.4163020595590106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying arguments is a necessary prerequisite for various tasks in automated discourse analysis, particularly within contexts such as political debates, online discussions, and scientific reasoning. In addition to theoretical advances in understanding the constitution of arguments, a significant body of research has emerged around practical argument mining, supported by a growing number of publicly available datasets. On these benchmarks, BERT-like transformers have consistently performed best, reinforcing the belief that such models are broadly applicable across diverse contexts of debate. This study offers the first large-scale re-evaluation of such state-of-the-art models, with a specific focus on their ability to generalize in identifying arguments. We evaluate four transformers, three standard and one enhanced with contrastive pre-training for better generalization, on 17 English sentence-level datasets as most relevant to the task. Our findings show that, to varying degrees, these models tend to rely on lexical shortcuts tied to content words, suggesting that apparent progress may often be driven by dataset-specific cues rather than true task alignment. While the models achieve strong results on familiar benchmarks, their performance drops markedly when applied to unseen datasets. Nonetheless, incorporating both task-specific pre-training and joint benchmark training proves effective in enhancing both robustness and generalization.
- Abstract(参考訳): 議論の特定は、自動談話分析における様々なタスク、特に政治討論、オンライン討論、科学的推論などの文脈において必要不可欠である。
議論の構成を理解するための理論的な進歩に加えて、多くの公開データセットが支持する実践的な議論マイニング(英語版)を中心に、重要な研究機関が出現している。
これらのベンチマークでは、BERTライクなトランスフォーマーは一貫して最善を尽くし、このようなモデルが様々な議論の文脈で広く適用可能であるという信念を強めている。
この研究は、そのような最先端モデルの大規模な再評価を初めて提供し、議論の特定において一般化する能力に特に焦点をあてる。
この課題に最も関係のある17の文レベルデータセットを用いて,4つのトランスフォーマー,3つの標準,および1つの強化されたコントラスト事前学習を,より優れた一般化のために評価した。
以上の結果から,これらのモデルでは,コンテントワードに関連付けられた語彙的ショートカットに依存する傾向がみられ,明らかな進行は,真のタスクアライメントではなく,データセット固有の手がかりによって引き起こされることが多いことが示唆された。
モデルはよく知られたベンチマークで強力な結果を得るが、見知らぬデータセットに適用した場合、そのパフォーマンスは著しく低下する。
それにもかかわらず、タスク固有の事前訓練と共同ベンチマークトレーニングの両方を取り入れることで、堅牢性と一般化の両面での強化が効果的である。
関連論文リスト
- TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data [9.390415313514762]
TARGAは、手動のアノテーションなしで高関連性合成データを生成するフレームワークである。
これは、クローズソースモデルを使用する既存の非微調整手法よりも大幅に優れている。
非I.I.D.設定下では、優れたサンプル効率、堅牢性、一般化能力を示す。
論文 参考訳(メタデータ) (2024-12-27T09:16:39Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - Contextualization and Generalization in Entity and Relation Extraction [0.0]
本研究では、訓練中に見えない事実への一般化に関する最先端モデルの振る舞いについて検討する。
従来のベンチマークは、トレーニングとモデル評価に使用される言及と関係の間に重要な語彙的重複を示す。
本稿では,トレーニングセットと重複する言及と関連性に基づいて,パフォーマンスを分離するための実証的研究を提案する。
論文 参考訳(メタデータ) (2022-06-15T14:16:42Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Do Fine-tuned Commonsense Language Models Really Generalize? [8.591839265985412]
厳密な科学的研究を設計・実施することで、一般化問題を詳細に研究する。
実験装置の適度な変更があっても、微調整されたコモンセンス言語モデルがまだうまく一般化していないという明確な証拠が得られます。
論文 参考訳(メタデータ) (2020-11-18T08:52:49Z) - High-order Semantic Role Labeling [86.29371274587146]
本稿では,ニューラルセマンティックロールラベリングモデルのための高階グラフ構造を提案する。
これにより、モデルは孤立述語-引数対だけでなく、述語-引数対間の相互作用も明示的に考慮することができる。
CoNLL-2009ベンチマークの7つの言語に対する実験結果から、高次構造学習技術は強力なSRLモデルに有益であることが示された。
論文 参考訳(メタデータ) (2020-10-09T15:33:54Z) - ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。
本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。
実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。
しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文 参考訳(メタデータ) (2020-02-11T11:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。