論文の概要: Perturbations and Subpopulations for Testing Robustness in Token-Based
Argument Unit Recognition
- arxiv url: http://arxiv.org/abs/2209.14780v1
- Date: Thu, 29 Sep 2022 13:44:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:12:36.985358
- Title: Perturbations and Subpopulations for Testing Robustness in Token-Based
Argument Unit Recognition
- Title(参考訳): トークン単位認識におけるロバスト性検査のための摂動とサブポピュレーション
- Authors: Jonathan Kamp, Lisa Beinborn, Antske Fokkens
- Abstract要約: Argument Unit Recognition and Classification は、テキストから引数単位を識別し、それをpro または against として分類することを目的としている。
このタスクのためにシステムを開発する際に必要となる設計上の選択の1つは、分類単位が何かである。
従来の研究では、トークンレベルの微調整言語モデルは、文章を直接訓練するよりも、文章を分類する上でより堅牢な結果をもたらすことが示唆されている。
当初この主張を導いた研究を再現し、トークンベースのシステムが文ベースのシステムと比較して何を学んだかをさらに調査する。
- 参考スコア(独自算出の注目度): 6.502694770864571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Argument Unit Recognition and Classification aims at identifying argument
units from text and classifying them as pro or against. One of the design
choices that need to be made when developing systems for this task is what the
unit of classification should be: segments of tokens or full sentences.
Previous research suggests that fine-tuning language models on the token-level
yields more robust results for classifying sentences compared to training on
sentences directly. We reproduce the study that originally made this claim and
further investigate what exactly token-based systems learned better compared to
sentence-based ones. We develop systematic tests for analysing the behavioural
differences between the token-based and the sentence-based system. Our results
show that token-based models are generally more robust than sentence-based
models both on manually perturbed examples and on specific subpopulations of
the data.
- Abstract(参考訳): Argument Unit Recognition and Classification は、テキストから引数単位を識別し、それをpro または against として分類することを目的としている。
このタスクのためにシステムを開発する際に必要となる設計上の選択の1つは、分類の単位が何であるかである:トークンのセグメントまたは全文。
従来の研究では、トークンレベルの微調整言語モデルは、文章を直接訓練するよりも、文章を分類する上でより堅牢な結果をもたらすことが示唆されている。
当初この主張を導いた研究を再現し、トークンベースのシステムが文ベースのシステムと比較して何を学んだかをさらに調査する。
トークンベースと文ベースシステム間の行動差を分析するための系統的テストを開発する。
この結果から,手動の摂動例やデータの特定のサブポピュレーションにおいて,トークンベースモデルの方が文ベースモデルよりも比較的堅牢であることが示唆された。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Comparison Study Between Token Classification and Sequence
Classification In Text Classification [0.45687771576879593]
自然言語処理タスクには教師なしの機械学習技術が適用されており、GLUEなどのベンチマークを上回る成功を収めている。
言語モデルの構築はひとつの言語でよい結果に近づき、分類、要約、生成などの複数のNLPタスクにボックスモデルから適用することができる。
論文 参考訳(メタデータ) (2022-11-25T05:14:58Z) - Language Model Classifier Aligns Better with Physician Word Sensitivity
than XGBoost on Readmission Prediction [86.15787587540132]
語彙レベルでモデルの振る舞いを精査する尺度である感度スコアを導入する。
本実験は,感度スコアのランク相関に基づいて,臨床医と分類医の意思決定論理を比較した。
論文 参考訳(メタデータ) (2022-11-13T23:59:11Z) - Discriminative Language Model as Semantic Consistency Scorer for
Prompt-based Few-Shot Text Classification [10.685862129925727]
本稿では,テキスト分類のための新しいプロンプトベースファインタニング手法(DLM-SCS)を提案する。
根底にある考え方は、真のラベルでインスタンス化されたプロンプトは、偽ラベルを持つ他のプロンプトよりも高いセマンティック一貫性スコアを持つべきであるということである。
我々のモデルは、最先端のプロンプトベースの複数ショット法より優れています。
論文 参考訳(メタデータ) (2022-10-23T16:10:48Z) - Reweighting Strategy based on Synthetic Data Identification for Sentence
Similarity [30.647497555295974]
機械で書かれた文章を識別する分類器を訓練し、機械で書かれた文章の言語的特徴が人間の文章と大きく異なることを観察する。
次に、分類器からの蒸留情報を用いて、信頼性のある文埋め込みモデルを訓練する。
合成データに基づいてトレーニングしたモデルでは,既存のベースラインよりも良く一般化し,性能が向上する。
論文 参考訳(メタデータ) (2022-08-29T05:42:22Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - More Than Words: Towards Better Quality Interpretations of Text
Classifiers [16.66535643383862]
MLモデルの入力インタフェースを考えると、トークンベースの解釈性は便利な第1選択であるが、あらゆる状況において最も効果的ではないことを示す。
1)ランダム化テストにより測定されるほど頑健であり,2)SHAPのような近似に基づく手法を用いた場合の変動性が低く,3)言語的コヒーレンスがより高い水準にある場合の人間には理解できない。
論文 参考訳(メタデータ) (2021-12-23T10:18:50Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - "Sharks are not the threat humans are": Argument Component Segmentation
in School Student Essays [3.632177840361928]
中学生が執筆した議論的エッセイのコーパスから,クレームと前提トークンを識別するためにトークンレベルの分類を適用する。
BERTに基づくマルチタスク学習アーキテクチャ(トークンと文レベルの分類)が、関連する未ラベルデータセット上で適応的に事前訓練され、最良の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-08T02:40:07Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。