論文の概要: Argument Quality Assessment with Large Language Models: A Pairwise Bradley-Terry Approach
- arxiv url: http://arxiv.org/abs/2605.28313v1
- Date: Wed, 27 May 2026 11:14:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.995723
- Title: Argument Quality Assessment with Large Language Models: A Pairwise Bradley-Terry Approach
- Title(参考訳): 大規模言語モデルを用いた議論品質評価:Bradley-Terryアプローチ
- Authors: Nicolás Benjamín Ocampo, Agnes Paullate Nyiranziza, Davide Ceolin,
- Abstract要約: 大規模言語モデル(LLM)は、推論や判断に関連するタスクにおいて顕著な能力を示した。
ゼロショット, 少数ショット, チェーン・オブ・ソートで, 異なるサイズと家族のオープンウェイトLLMを12個試験した。
我々の知見は、LLMは有望ではあるが、人間の専門家による判断と適度に相関していることを示している。
- 参考スコア(独自算出の注目度): 3.0068578527945866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in tasks related to reasoning and judgment. However, assessing the quality of arguments requires a rigorous evaluation. We investigate the extent to which LLMs can effectively perform this task. We tested 12 open-weight LLMs of different sizes and families under zero-shot, few-shot, and chain-of-thought to approximate expert pairwise comparisons of argument quality across three dimensions-logical, rhetorical, and dialectic-and used these comparisons in a Bradley-Terry model to infer latent strength scores and derive a ranking of arguments. Our insights show that LLMs have promising but moderate correlation with human expert judgments, with Llama-70B obtaining the strongest alignment, reaching moderate Cohen's $κ$ = 0.493 and moderate correlations with Bradley-Terry scores derived from these annotations (Kendall, Pearson, and Spearman: 0.327-0.477). Other LLMs exhibit weak, moderate, or high alignment with Llama-70B while achieving comparable results against human experts, suggesting partial but complementary understanding of underlying quality dimensions despite differences in model size and family. Moreover, LLM predictions are stable across trial runs, with fewer than 7.75\% of cases yielding different labels. Remaining variability is handled via majority voting and few-shot prompting for large-size models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論や判断に関連するタスクにおいて顕著な能力を示した。
しかし、議論の質を評価するには厳格な評価が必要である。
LLMがこのタスクを効果的に実行できる範囲について検討する。
我々は, ゼロショット, 少数ショット, チェーン・オブ・シントの異なるサイズおよび家族の12個のオープンウェイトLLMを, 論理的, 修辞的, 弁証的3次元の議論品質の近似的に比較し, これらの比較をブラッドリー・テリーモデルを用いて, 遅延強度スコアを推定し, 議論のランク付けを導出した。
Llama-70Bが最強のアライメントを獲得し,Chenのκ$=0.493とBradley-Terryのアノテーション(Kendall,Pearson,Spearman:0.327-0.477)との適度な相関が得られた。
他のLSMは、Llama-70Bと同等の結果を得る一方で、Llama-70Bと弱い、中程度の、あるいは高いアライメントを示し、モデルのサイズと家族の違いにもかかわらず、基礎的な品質の次元を部分的に、補完的に理解することを示唆している。
さらに、LSM予測は試行錯誤で安定しており、7.75 %未満のケースではラベルが異なる。
ばらつきの残りは、多数決と大規模なモデルのための数発のプロンプトによって処理される。
関連論文リスト
- OpenDeepThink: Parallel Reasoning via Bradley-Terry Aggregation [53.88666485159289]
OpenDeepThinkは、集団ベースのテスト時間計算フレームワークで、ペアワイズBradley-Terryの比較によって選択する。
OpenDeepThinkはGemini 3.1 ProのCodeforces Eloを8回のLCMコールラウンドで+405ポイント引き上げる。
CF-73は、国際グランドマスターアノテーションによる73の専門家評価コードフォース問題と、公式判決に対する99%の地域評価合意のキュレートされたセットである。
論文 参考訳(メタデータ) (2026-05-14T17:57:40Z) - Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。
要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文 参考訳(メタデータ) (2026-02-07T19:39:28Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - GLIDER: Grading LLM Interactions and Decisions using Explainable Ranking [0.9614204956530676]
我々は,任意のユーザ定義基準に基づいて任意のテキスト入力および関連するコンテキストをスコアできる,強力な3B評価用LLMであるGLIDERを紹介する。
GLIDERは、FLASK上のGPT-4oよりもピアソンの相関が高く、事前評価モデルよりも大幅に優れていた。
きめ細かいスコア付け、多言語推論、強調表示をサポートし、685のドメインと183の基準でトレーニングされた。
論文 参考訳(メタデータ) (2024-12-18T18:41:12Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
LLM-as-a-judgeパラダイムは,大規模言語モデルを評価するアプローチとして急速に普及している。
本稿では,人間間の合意が高いクリーンなシナリオに焦点を当てる。
我々は、複雑性や長さを早めるための感度や、寛大さへの傾向など、審査モデルの脆弱性を識別する。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。