論文の概要: Semi-Supervised Cleansing of Web Argument Corpora
- arxiv url: http://arxiv.org/abs/2011.01798v1
- Date: Tue, 3 Nov 2020 15:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 04:51:54.584244
- Title: Semi-Supervised Cleansing of Web Argument Corpora
- Title(参考訳): Web Argument Corpora の半監督的クリーニング
- Authors: Jonas Dorsch and Henning Wachsmuth
- Abstract要約: 議論ポータルと類似のWebプラットフォームは、計算議論研究における主要なテキストソースの1つである。
本稿では,そのような無関係なテキストを半教師付きで検出する精度指向のアプローチを提案する。
既存のargs.meコーパスで400kの論証文を抽出し,手作業による評価により約87kの無関係文を0.97の精度で検出した。
- 参考スコア(独自算出の注目度): 20.65183968971417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Debate portals and similar web platforms constitute one of the main text
sources in computational argumentation research and its applications. While the
corpora built upon these sources are rich of argumentatively relevant content
and structure, they also include text that is irrelevant, or even detrimental,
to their purpose. In this paper, we present a precision-oriented approach to
detecting such irrelevant text in a semi-supervised way. Given a few seed
examples, the approach automatically learns basic lexical patterns of relevance
and irrelevance and then incrementally bootstraps new patterns from sentences
matching the patterns. In the existing args.me corpus with 400k argumentative
texts, our approach detects almost 87k irrelevant sentences, at a precision of
0.97 according to manual evaluation. With low effort, the approach can be
adapted to other web argument corpora, providing a generic way to improve
corpus quality.
- Abstract(参考訳): 議論ポータルと類似のWebプラットフォームは、計算議論研究における主要なテキストソースの1つである。
これらのソース上に構築されたコーパスは議論的な内容や構造に富んでいるが、それらの目的に無関係で有害なテキストも含まれている。
本稿では,そのような無関係テキストを半教師付きで検出する精度指向のアプローチを提案する。
いくつか例を挙げると、このアプローチは、関連性と非関連性の基本的な語彙パターンを自動的に学習し、パターンにマッチする文から新たなパターンを段階的にブートストラップする。
400kの議論テキストを持つ既存のargs.meコーパスでは、手作業による評価により、約87kの無関係文を精度0.97で検出する。
低い労力で、アプローチは他のWeb引数コーパスに適応することができ、コーパスの品質を改善する汎用的な方法を提供する。
関連論文リスト
- Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Generating Informative Conclusions for Argumentative Texts [32.3103908466811]
論証文の目的は、ある結論を支持することである。
明確な結論は、議論文のよい候補要約である。
これは、結論が情報であり、特定の概念をテキストから強調する場合に特に当てはまる。
論文 参考訳(メタデータ) (2021-06-02T10:35:59Z) - Corpus-Based Paraphrase Detection Experiments and Review [0.0]
パラフレーズ検出は、盗作検出、著者帰属、質問応答、テキスト要約など、多くのアプリケーションにとって重要である。
本稿では,多種多様なコーパスベースモデル,特にディープラーニング(DL)モデルの性能概要とパラフレーズ検出の課題について述べる。
論文 参考訳(メタデータ) (2021-05-31T23:29:24Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Automatically Ranked Russian Paraphrase Corpus for Text Generation [0.0]
この記事は、ロシア語のパラフレーズ生成のための大規模なコーパスの自動開発とランキングに焦点を当てている。
既存のロシア語の注釈付きパラフレーズデータセットは、小型のParaPhraser corpusとParaPlagに限られている。
論文 参考訳(メタデータ) (2020-06-17T08:40:52Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection [0.0]
本稿では,ウィキペディアのコメントコーパスに基づいて,異なるタイプのコメントレベルアノテーションを用いた独自のフレームワークを提案する。
380k以上の注釈付きメッセージからなるこの大規模なコーパスは、オンライン不正検出、特にコンテキストベースのアプローチに対する視点を開放する。
また、このコーパスに加えて、コンテンツ乱用検出の問題に関する科学的研究を刺激し、適切に比較するための完全なベンチマークプラットフォームも提案する。
論文 参考訳(メタデータ) (2020-03-13T10:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。