Fugu-MT 論文翻訳(概要): Are Large Language Models Reliable Argument Quality Annotators?

論文の概要: Are Large Language Models Reliable Argument Quality Annotators?

arxiv url: http://arxiv.org/abs/2404.09696v1
Date: Mon, 15 Apr 2024 11:54:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 12:40:28.445352
Title: Are Large Language Models Reliable Argument Quality Annotators?
Title（参考訳）: 大規模言語モデルは信頼性の高い引数品質アノテータか?
Authors: Nailia Mirzakhmedova, Marcel Gohsen, Chia Hao Chang, Benno Stein,
Abstract要約: 議論品質アノテータのプロキシとして,最先端の大規模言語モデル (LLM) を用いる可能性について検討する。以上の結果から,LSMは人間専門家と中程度に高い合意を得て,一貫したアノテーションを生成できることが示唆された。
参考スコア（独自算出の注目度）: 7.966402845339264
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluating the quality of arguments is a crucial aspect of any system leveraging argument mining. However, it is a challenge to obtain reliable and consistent annotations regarding argument quality, as this usually requires domain-specific expertise of the annotators. Even among experts, the assessment of argument quality is often inconsistent due to the inherent subjectivity of this task. In this paper, we study the potential of using state-of-the-art large language models (LLMs) as proxies for argument quality annotators. To assess the capability of LLMs in this regard, we analyze the agreement between model, human expert, and human novice annotators based on an established taxonomy of argument quality dimensions. Our findings highlight that LLMs can produce consistent annotations, with a moderately high agreement with human experts across most of the quality dimensions. Moreover, we show that using LLMs as additional annotators can significantly improve the agreement between annotators. These results suggest that LLMs can serve as a valuable tool for automated argument quality assessment, thus streamlining and accelerating the evaluation of large argument datasets.
Abstract（参考訳）: 議論の質を評価することは、議論のマイニングを活用するシステムにおいて重要な側面である。しかし、通常はアノテータのドメイン固有の専門知識を必要とするため、引数の品質に関する信頼性と一貫性のあるアノテーションを得るのは難しい。専門家の間でも、議論品質の評価は、このタスクの固有の主観性のために矛盾することが多い。本稿では,現在最先端の大規模言語モデル (LLM) を引数品質アノテータのプロキシとして用いる可能性について検討する。この点においてLLMの能力を評価するために,議論品質次元の確立した分類法に基づいて,モデル,人間専門家,人間初心者アノテータ間の一致を分析した。この結果から, LLM は, 品質の面において, 人的専門家との整合性が高く, 一貫性のあるアノテーションを生成できることが示唆された。さらに,LLMを付加アノテータとして用いることで,アノテータ間の合意を著しく改善できることを示す。これらの結果から,LLMは自動引数品質評価に有用なツールであり,大規模引数データセットの評価の合理化と高速化が可能であることが示唆された。

関連論文リスト

Towards Characterizing Subjectivity of Individuals through Modeling Value Conflicts and Trade-offs [22.588557390720236]
我々は,ソーシャルメディア上での個人の主観性を特徴付け,その道徳的判断を大規模言語モデルを用いて推測する。本研究では,個人の主観的根拠をよりよく表現するために,ユーザ生成テキストにおける価値相反やトレードオフを観察するフレームワークであるSOLARを提案する。
論文参考訳（メタデータ） (2025-04-17T04:20:05Z)
ConQRet: Benchmarking Fine-Grained Evaluation of Retrieval Augmented Argumentation with LLM Judges [23.179246872272362]
今日の分極環境では、計算的議論がますます重要になっている。そこで本研究では,現実世界のWebサイトを基盤とした,議論されたトピックに関する,長く複雑な人間による議論を特徴とする新しいベンチマークを提案する。提案した LLM Judges と ConQRet ベンチマークは,計算議論の急速な進展を可能にする。
論文参考訳（メタデータ） (2024-12-06T17:35:52Z)
Persuasiveness of Generated Free-Text Rationales in Subjective Decisions: A Case Study on Pairwise Argument Ranking [4.1017420444369215]
主観的回答を伴うタスクにおいて生成した自由文論理を解析する。我々は、現実世界のアプリケーションにとって大きな可能性を持つ、非常に主観的なタスクであるペアワイズ引数ランキングに焦点を当てる。以上の結果から,Llama2-70B-chat のオープンソース LLM は高い説得力のある合理化を実現できることが示唆された。
論文参考訳（メタデータ） (2024-06-20T00:28:33Z)
Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。 MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文参考訳（メタデータ） (2024-04-10T01:26:24Z)
Argument Quality Assessment in the Age of Instruction-Following Large Language Models [45.832808321166844]
そのような応用において重要なタスクは、議論の質を評価することである。我々は,質概念の多様性と認識の主観性を,議論品質評価における実質的な進歩への主要なハードルとみなす。インストラクション追従型大規模言語モデル(LLM)がコンテキストを越えた知識を活用できることは,より信頼性の高い評価を可能にしている,と我々は主張する。
論文参考訳（メタデータ） (2024-03-24T10:43:21Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。 LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文参考訳（メタデータ） (2023-11-14T07:26:32Z)
Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。 LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)
ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文参考訳（メタデータ） (2023-08-14T15:13:04Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)
Contextualizing Argument Quality Assessment with Relevant Knowledge [11.367297319588411]
SPARKは、関連する知識による文脈化に基づく議論品質を評価するための新しい手法である。我々は、大きな言語モデルを利用してフィードバックを提供したり、隠れた仮定を推測したり、同様の品質の議論を提供したり、あるいは反論をしたりする4つの拡張を考案する。
論文参考訳（メタデータ） (2023-05-20T21:04:58Z)
Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文参考訳（メタデータ） (2023-04-13T13:08:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。