論文の概要: Learning From Revisions: Quality Assessment of Claims in Argumentation
at Scale
- arxiv url: http://arxiv.org/abs/2101.10250v1
- Date: Mon, 25 Jan 2021 17:32:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 02:11:50.429672
- Title: Learning From Revisions: Quality Assessment of Claims in Argumentation
at Scale
- Title(参考訳): 改訂から学ぶ: スケールでの議論におけるクレームの品質評価
- Authors: Gabriella Skitalinskaya, Jonas Klaff and Henning Wachsmuth
- Abstract要約: 本研究は,同一クレームの異なるリビジョンを比較することにより,議論された側面に関わらずクレーム品質評価を行う。
本稿では,どのリビジョンペアのクレームがよいかを評価し,クレームのすべてのバージョンを品質でランク付けする2つのタスクを提案する。
- 参考スコア(独自算出の注目度): 12.883536911500062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing the quality of arguments and of the claims the arguments are
composed of has become a key task in computational argumentation. However, even
if different claims share the same stance on the same topic, their assessment
depends on the prior perception and weighting of the different aspects of the
topic being discussed. This renders it difficult to learn topic-independent
quality indicators. In this paper, we study claim quality assessment
irrespective of discussed aspects by comparing different revisions of the same
claim. We compile a large-scale corpus with over 377k claim revision pairs of
various types from kialo.com, covering diverse topics from politics, ethics,
entertainment, and others. We then propose two tasks: (a) assessing which claim
of a revision pair is better, and (b) ranking all versions of a claim by
quality. Our first experiments with embedding-based logistic regression and
transformer-based neural networks show promising results, suggesting that
learned indicators generalize well across topics. In a detailed error analysis,
we give insights into what quality dimensions of claims can be assessed
reliably. We provide the data and scripts needed to reproduce all results.
- Abstract(参考訳): 引数の品質を評価し、引数を構成するクレームは計算議論において重要なタスクとなっています。
しかし、異なる主張が同じ話題について同じスタンスを共有しているとしても、その評価は議論されているトピックの異なる側面の事前の認識と重み付けに依存する。
これにより、トピックに依存しない品質指標の学習が困難になる。
本稿では,同一のクレームの異なるリビジョンを比較することで,議論の面に関わらずクレーム品質の評価を行う。
我々は,Kialo.comから377k以上のクレームリビジョンペアを作成した大規模コーパスをコンパイルし,政治,倫理,エンターテイメントなどさまざまなトピックをカバーした。
次に、(a)どのリビジョンペアのクレームが良いかを評価し、(b)クレームのすべてのバージョンを品質でランク付けする2つのタスクを提案する。
組込み型ロジスティック回帰とトランスフォーマー型ニューラルネットワークを用いた最初の実験では有望な結果を示し,学習指標がトピックをまたいでよく一般化することを示唆した。
詳細なエラー解析では、クレームの品質寸法を確実に評価できるかどうかを洞察する。
すべての結果を再現するために必要なデータとスクリプトを提供します。
関連論文リスト
- Predicting the Quality of Revisions in Argumentative Writing [2.0572032297930503]
チェーン・オブ・ソートは、ChatGPTで生成されたACをAR品質予測に役立てる。
2つのコーパス(注釈付き初等エッセイと既存の大学エッセイベンチマーク)の実験は、ベースラインよりも提案されたACの優位性を実証している。
論文 参考訳(メタデータ) (2023-06-01T13:39:33Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - To Revise or Not to Revise: Learning to Detect Improvable Claims for
Argumentative Writing Support [20.905660642919052]
特定の修正が必要な議論的クレームを特定するための主な課題について検討する。
本稿では,リビジョン距離に基づく新しいサンプリング戦略を提案する。
文脈情報とドメイン知識を用いることで、予測結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2023-05-26T10:19:54Z) - Towards Explainable In-the-Wild Video Quality Assessment: A Database and
a Language-Prompted Approach [52.07084862209754]
われわれは、13次元の質関連因子に関する4,543本のビデオについて200万以上の意見を集めている。
具体的には、各次元に対して正、負、中立の選択をラベル付けするよう被験者に求める。
これらの説明レベルの意見は、特定の品質要因と抽象的な主観的品質評価の関係を測ることができる。
論文 参考訳(メタデータ) (2023-05-22T05:20:23Z) - Contextualizing Argument Quality Assessment with Relevant Knowledge [12.195358938525828]
SPARKは、関連する知識による文脈化に基づく議論品質を評価するための新しい手法である。
我々は、大きな言語モデルを利用してフィードバックを提供したり、隠れた仮定を推測したり、同様の品質の議論を提供したり、あるいは反論をしたりする4つの拡張を考案する。
論文 参考訳(メタデータ) (2023-05-20T21:04:58Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - Towards a Holistic View on Argument Quality Prediction [3.182597245365433]
議論の決定的な性質は、その強さまたは品質である。
議論の強さを自動推定する作業は存在するが、その範囲は狭い。
多様な領域にわたる議論品質推定の一般化能力,関連する議論マイニング課題との相互作用,および知覚された議論強度に対する感情の影響を評価する。
論文 参考訳(メタデータ) (2022-05-19T18:44:23Z) - Creating a Domain-diverse Corpus for Theory-based Argument Quality
Assessment [6.654552816487819]
GAQCorpus は理論ベース AQ の最初の大領域多元アノテートコーパスである。
本稿では,クラウドソーシングによる多数の判断を確実に収集するアノテーションタスクの設計方法について論じる。
本研究は,理論に基づく議論アノテーションの研究を報告し,より多様なコーパスを作成して計算AQアセスメントを支援することを目的とする。
論文 参考訳(メタデータ) (2020-11-03T09:40:25Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - SubjQA: A Dataset for Subjectivity and Review Comprehension [52.13338191442912]
主観性と質問応答(QA)の関係について検討する。
主観性は、主観性とQAパフォーマンスのより複雑な相互作用があるにもかかわらず、QAの場合においても重要な特徴であることがわかった。
顧客レビューに基づいた英語のQAデータセット(SubjQA)をリリースし、6つの異なるドメインにまたがる質問や回答に対する主観的アノテーションを含む。
論文 参考訳(メタデータ) (2020-04-29T15:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。