論文の概要: Are Large Language Models Reliable Argument Quality Annotators?
- arxiv url: http://arxiv.org/abs/2404.09696v1
- Date: Mon, 15 Apr 2024 11:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 12:40:28.445352
- Title: Are Large Language Models Reliable Argument Quality Annotators?
- Title(参考訳): 大規模言語モデルは信頼性の高い引数品質アノテータか?
- Authors: Nailia Mirzakhmedova, Marcel Gohsen, Chia Hao Chang, Benno Stein,
- Abstract要約: 議論品質アノテータのプロキシとして,最先端の大規模言語モデル (LLM) を用いる可能性について検討する。
以上の結果から,LSMは人間専門家と中程度に高い合意を得て,一貫したアノテーションを生成できることが示唆された。
- 参考スコア(独自算出の注目度): 7.966402845339264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the quality of arguments is a crucial aspect of any system leveraging argument mining. However, it is a challenge to obtain reliable and consistent annotations regarding argument quality, as this usually requires domain-specific expertise of the annotators. Even among experts, the assessment of argument quality is often inconsistent due to the inherent subjectivity of this task. In this paper, we study the potential of using state-of-the-art large language models (LLMs) as proxies for argument quality annotators. To assess the capability of LLMs in this regard, we analyze the agreement between model, human expert, and human novice annotators based on an established taxonomy of argument quality dimensions. Our findings highlight that LLMs can produce consistent annotations, with a moderately high agreement with human experts across most of the quality dimensions. Moreover, we show that using LLMs as additional annotators can significantly improve the agreement between annotators. These results suggest that LLMs can serve as a valuable tool for automated argument quality assessment, thus streamlining and accelerating the evaluation of large argument datasets.
- Abstract(参考訳): 議論の質を評価することは、議論のマイニングを活用するシステムにおいて重要な側面である。
しかし、通常はアノテータのドメイン固有の専門知識を必要とするため、引数の品質に関する信頼性と一貫性のあるアノテーションを得るのは難しい。
専門家の間でも、議論品質の評価は、このタスクの固有の主観性のために矛盾することが多い。
本稿では,現在最先端の大規模言語モデル (LLM) を引数品質アノテータのプロキシとして用いる可能性について検討する。
この点においてLLMの能力を評価するために,議論品質次元の確立した分類法に基づいて,モデル,人間専門家,人間初心者アノテータ間の一致を分析した。
この結果から, LLM は, 品質の面において, 人的専門家との整合性が高く, 一貫性のあるアノテーションを生成できることが示唆された。
さらに,LLMを付加アノテータとして用いることで,アノテータ間の合意を著しく改善できることを示す。
これらの結果から,LLMは自動引数品質評価に有用なツールであり,大規模引数データセットの評価の合理化と高速化が可能であることが示唆された。
関連論文リスト
- Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - ConQRet: Benchmarking Fine-Grained Evaluation of Retrieval Augmented Argumentation with LLM Judges [23.179246872272362]
今日の分極環境では、計算的議論がますます重要になっている。
そこで本研究では,現実世界のWebサイトを基盤とした,議論されたトピックに関する,長く複雑な人間による議論を特徴とする新しいベンチマークを提案する。
提案した LLM Judges と ConQRet ベンチマークは,計算議論の急速な進展を可能にする。
論文 参考訳(メタデータ) (2024-12-06T17:35:52Z) - Persuasiveness of Generated Free-Text Rationales in Subjective Decisions: A Case Study on Pairwise Argument Ranking [4.1017420444369215]
主観的回答を伴うタスクにおいて生成した自由文論理を解析する。
我々は、現実世界のアプリケーションにとって大きな可能性を持つ、非常に主観的なタスクであるペアワイズ引数ランキングに焦点を当てる。
以上の結果から,Llama2-70B-chat のオープンソース LLM は高い説得力のある合理化を実現できることが示唆された。
論文 参考訳(メタデータ) (2024-06-20T00:28:33Z) - Argument Quality Assessment in the Age of Instruction-Following Large Language Models [45.832808321166844]
そのような応用において重要なタスクは、議論の質を評価することである。
我々は,質概念の多様性と認識の主観性を,議論品質評価における実質的な進歩への主要なハードルとみなす。
インストラクション追従型大規模言語モデル(LLM)がコンテキストを越えた知識を活用できることは,より信頼性の高い評価を可能にしている,と我々は主張する。
論文 参考訳(メタデータ) (2024-03-24T10:43:21Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Contextualizing Argument Quality Assessment with Relevant Knowledge [11.367297319588411]
SPARKは、関連する知識による文脈化に基づく議論品質を評価するための新しい手法である。
我々は、大きな言語モデルを利用してフィードバックを提供したり、隠れた仮定を推測したり、同様の品質の議論を提供したり、あるいは反論をしたりする4つの拡張を考案する。
論文 参考訳(メタデータ) (2023-05-20T21:04:58Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。