論文の概要: Learning From Revisions: Quality Assessment of Claims in Argumentation
at Scale
- arxiv url: http://arxiv.org/abs/2101.10250v1
- Date: Mon, 25 Jan 2021 17:32:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 02:11:50.429672
- Title: Learning From Revisions: Quality Assessment of Claims in Argumentation
at Scale
- Title(参考訳): 改訂から学ぶ: スケールでの議論におけるクレームの品質評価
- Authors: Gabriella Skitalinskaya, Jonas Klaff and Henning Wachsmuth
- Abstract要約: 本研究は,同一クレームの異なるリビジョンを比較することにより,議論された側面に関わらずクレーム品質評価を行う。
本稿では,どのリビジョンペアのクレームがよいかを評価し,クレームのすべてのバージョンを品質でランク付けする2つのタスクを提案する。
- 参考スコア(独自算出の注目度): 12.883536911500062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing the quality of arguments and of the claims the arguments are
composed of has become a key task in computational argumentation. However, even
if different claims share the same stance on the same topic, their assessment
depends on the prior perception and weighting of the different aspects of the
topic being discussed. This renders it difficult to learn topic-independent
quality indicators. In this paper, we study claim quality assessment
irrespective of discussed aspects by comparing different revisions of the same
claim. We compile a large-scale corpus with over 377k claim revision pairs of
various types from kialo.com, covering diverse topics from politics, ethics,
entertainment, and others. We then propose two tasks: (a) assessing which claim
of a revision pair is better, and (b) ranking all versions of a claim by
quality. Our first experiments with embedding-based logistic regression and
transformer-based neural networks show promising results, suggesting that
learned indicators generalize well across topics. In a detailed error analysis,
we give insights into what quality dimensions of claims can be assessed
reliably. We provide the data and scripts needed to reproduce all results.
- Abstract(参考訳): 引数の品質を評価し、引数を構成するクレームは計算議論において重要なタスクとなっています。
しかし、異なる主張が同じ話題について同じスタンスを共有しているとしても、その評価は議論されているトピックの異なる側面の事前の認識と重み付けに依存する。
これにより、トピックに依存しない品質指標の学習が困難になる。
本稿では,同一のクレームの異なるリビジョンを比較することで,議論の面に関わらずクレーム品質の評価を行う。
我々は,Kialo.comから377k以上のクレームリビジョンペアを作成した大規模コーパスをコンパイルし,政治,倫理,エンターテイメントなどさまざまなトピックをカバーした。
次に、(a)どのリビジョンペアのクレームが良いかを評価し、(b)クレームのすべてのバージョンを品質でランク付けする2つのタスクを提案する。
組込み型ロジスティック回帰とトランスフォーマー型ニューラルネットワークを用いた最初の実験では有望な結果を示し,学習指標がトピックをまたいでよく一般化することを示唆した。
詳細なエラー解析では、クレームの品質寸法を確実に評価できるかどうかを洞察する。
すべての結果を再現するために必要なデータとスクリプトを提供します。
関連論文リスト
- Beyond Relevance: Evaluate and Improve Retrievers on Perspective Awareness [56.42192735214931]
検索者は、ドキュメントとクエリ間のセマンティックな関連性に頼るだけでなく、ユーザクエリの背後にある微妙な意図や視点を認識することも期待されている。
本研究では,検索者がクエリの異なる視点を認識し,応答できるかどうかを検討する。
我々は,現在の検索者はクエリにおいて微妙に異なる視点に対する認識が限られており,特定の視点に偏りがあることを示す。
論文 参考訳(メタデータ) (2024-05-04T17:10:00Z) - Argument Quality Assessment in the Age of Instruction-Following Large Language Models [45.832808321166844]
そのような応用において重要なタスクは、議論の質を評価することである。
我々は,質概念の多様性と認識の主観性を,議論品質評価における実質的な進歩への主要なハードルとみなす。
インストラクション追従型大規模言語モデル(LLM)がコンテキストを越えた知識を活用できることは,より信頼性の高い評価を可能にしている,と我々は主張する。
論文 参考訳(メタデータ) (2024-03-24T10:43:21Z) - To Revise or Not to Revise: Learning to Detect Improvable Claims for
Argumentative Writing Support [20.905660642919052]
特定の修正が必要な議論的クレームを特定するための主な課題について検討する。
本稿では,リビジョン距離に基づく新しいサンプリング戦略を提案する。
文脈情報とドメイン知識を用いることで、予測結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2023-05-26T10:19:54Z) - Contextualizing Argument Quality Assessment with Relevant Knowledge [11.367297319588411]
SPARKは、関連する知識による文脈化に基づく議論品質を評価するための新しい手法である。
我々は、大きな言語モデルを利用してフィードバックを提供したり、隠れた仮定を推測したり、同様の品質の議論を提供したり、あるいは反論をしたりする4つの拡張を考案する。
論文 参考訳(メタデータ) (2023-05-20T21:04:58Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - Towards a Holistic View on Argument Quality Prediction [3.182597245365433]
議論の決定的な性質は、その強さまたは品質である。
議論の強さを自動推定する作業は存在するが、その範囲は狭い。
多様な領域にわたる議論品質推定の一般化能力,関連する議論マイニング課題との相互作用,および知覚された議論強度に対する感情の影響を評価する。
論文 参考訳(メタデータ) (2022-05-19T18:44:23Z) - Creating a Domain-diverse Corpus for Theory-based Argument Quality
Assessment [6.654552816487819]
GAQCorpus は理論ベース AQ の最初の大領域多元アノテートコーパスである。
本稿では,クラウドソーシングによる多数の判断を確実に収集するアノテーションタスクの設計方法について論じる。
本研究は,理論に基づく議論アノテーションの研究を報告し,より多様なコーパスを作成して計算AQアセスメントを支援することを目的とする。
論文 参考訳(メタデータ) (2020-11-03T09:40:25Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - SubjQA: A Dataset for Subjectivity and Review Comprehension [52.13338191442912]
主観性と質問応答(QA)の関係について検討する。
主観性は、主観性とQAパフォーマンスのより複雑な相互作用があるにもかかわらず、QAの場合においても重要な特徴であることがわかった。
顧客レビューに基づいた英語のQAデータセット(SubjQA)をリリースし、6つの異なるドメインにまたがる質問や回答に対する主観的アノテーションを含む。
論文 参考訳(メタデータ) (2020-04-29T15:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。