論文の概要: Are Large Language Models Reliable Argument Quality Annotators?
- arxiv url: http://arxiv.org/abs/2404.09696v1
- Date: Mon, 15 Apr 2024 11:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 12:40:28.445352
- Title: Are Large Language Models Reliable Argument Quality Annotators?
- Title(参考訳): 大規模言語モデルは信頼性の高い引数品質アノテータか?
- Authors: Nailia Mirzakhmedova, Marcel Gohsen, Chia Hao Chang, Benno Stein,
- Abstract要約: 議論品質アノテータのプロキシとして,最先端の大規模言語モデル (LLM) を用いる可能性について検討する。
以上の結果から,LSMは人間専門家と中程度に高い合意を得て,一貫したアノテーションを生成できることが示唆された。
- 参考スコア(独自算出の注目度): 7.966402845339264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the quality of arguments is a crucial aspect of any system leveraging argument mining. However, it is a challenge to obtain reliable and consistent annotations regarding argument quality, as this usually requires domain-specific expertise of the annotators. Even among experts, the assessment of argument quality is often inconsistent due to the inherent subjectivity of this task. In this paper, we study the potential of using state-of-the-art large language models (LLMs) as proxies for argument quality annotators. To assess the capability of LLMs in this regard, we analyze the agreement between model, human expert, and human novice annotators based on an established taxonomy of argument quality dimensions. Our findings highlight that LLMs can produce consistent annotations, with a moderately high agreement with human experts across most of the quality dimensions. Moreover, we show that using LLMs as additional annotators can significantly improve the agreement between annotators. These results suggest that LLMs can serve as a valuable tool for automated argument quality assessment, thus streamlining and accelerating the evaluation of large argument datasets.
- Abstract(参考訳): 議論の質を評価することは、議論のマイニングを活用するシステムにおいて重要な側面である。
しかし、通常はアノテータのドメイン固有の専門知識を必要とするため、引数の品質に関する信頼性と一貫性のあるアノテーションを得るのは難しい。
専門家の間でも、議論品質の評価は、このタスクの固有の主観性のために矛盾することが多い。
本稿では,現在最先端の大規模言語モデル (LLM) を引数品質アノテータのプロキシとして用いる可能性について検討する。
この点においてLLMの能力を評価するために,議論品質次元の確立した分類法に基づいて,モデル,人間専門家,人間初心者アノテータ間の一致を分析した。
この結果から, LLM は, 品質の面において, 人的専門家との整合性が高く, 一貫性のあるアノテーションを生成できることが示唆された。
さらに,LLMを付加アノテータとして用いることで,アノテータ間の合意を著しく改善できることを示す。
これらの結果から,LLMは自動引数品質評価に有用なツールであり,大規模引数データセットの評価の合理化と高速化が可能であることが示唆された。
関連論文リスト
- Persuasiveness of Generated Free-Text Rationales in Subjective Decisions: A Case Study on Pairwise Argument Ranking [4.1017420444369215]
主観的回答を伴うタスクにおいて生成した自由文論理を解析する。
我々は、現実世界のアプリケーションにとって大きな可能性を持つ、非常に主観的なタスクであるペアワイズ引数ランキングに焦点を当てる。
以上の結果から,Llama2-70B-chat のオープンソース LLM は高い説得力のある合理化を実現できることが示唆された。
論文 参考訳(メタデータ) (2024-06-20T00:28:33Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。
MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。
ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - Argument Quality Assessment in the Age of Instruction-Following Large Language Models [45.832808321166844]
そのような応用において重要なタスクは、議論の質を評価することである。
我々は,質概念の多様性と認識の主観性を,議論品質評価における実質的な進歩への主要なハードルとみなす。
インストラクション追従型大規模言語モデル(LLM)がコンテキストを越えた知識を活用できることは,より信頼性の高い評価を可能にしている,と我々は主張する。
論文 参考訳(メタデータ) (2024-03-24T10:43:21Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Contextualizing Argument Quality Assessment with Relevant Knowledge [11.367297319588411]
SPARKは、関連する知識による文脈化に基づく議論品質を評価するための新しい手法である。
我々は、大きな言語モデルを利用してフィードバックを提供したり、隠れた仮定を推測したり、同様の品質の議論を提供したり、あるいは反論をしたりする4つの拡張を考案する。
論文 参考訳(メタデータ) (2023-05-20T21:04:58Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。