論文の概要: ConQRet: Benchmarking Fine-Grained Evaluation of Retrieval Augmented Argumentation with LLM Judges
- arxiv url: http://arxiv.org/abs/2412.05206v1
- Date: Fri, 06 Dec 2024 17:35:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:49.042435
- Title: ConQRet: Benchmarking Fine-Grained Evaluation of Retrieval Augmented Argumentation with LLM Judges
- Title(参考訳): ConQRet: LLM審査員による検索調停の細粒度評価のベンチマーク
- Authors: Kaustubh D. Dhole, Kai Shu, Eugene Agichtein,
- Abstract要約: 今日の分極環境では、計算的議論がますます重要になっている。
そこで本研究では,現実世界のWebサイトを基盤とした,議論されたトピックに関する,長く複雑な人間による議論を特徴とする新しいベンチマークを提案する。
提案した LLM Judges と ConQRet ベンチマークは,計算議論の急速な進展を可能にする。
- 参考スコア(独自算出の注目度): 23.179246872272362
- License:
- Abstract: Computational argumentation, which involves generating answers or summaries for controversial topics like abortion bans and vaccination, has become increasingly important in today's polarized environment. Sophisticated LLM capabilities offer the potential to provide nuanced, evidence-based answers to such questions through Retrieval-Augmented Argumentation (RAArg), leveraging real-world evidence for high-quality, grounded arguments. However, evaluating RAArg remains challenging, as human evaluation is costly and difficult for complex, lengthy answers on complicated topics. At the same time, re-using existing argumentation datasets is no longer sufficient, as they lack long, complex arguments and realistic evidence from potentially misleading sources, limiting holistic evaluation of retrieval effectiveness and argument quality. To address these gaps, we investigate automated evaluation methods using multiple fine-grained LLM judges, providing better and more interpretable assessments than traditional single-score metrics and even previously reported human crowdsourcing. To validate the proposed techniques, we introduce ConQRet, a new benchmark featuring long and complex human-authored arguments on debated topics, grounded in real-world websites, allowing an exhaustive evaluation across retrieval effectiveness, argument quality, and groundedness. We validate our LLM Judges on a prior dataset and the new ConQRet benchmark. Our proposed LLM Judges and the ConQRet benchmark can enable rapid progress in computational argumentation and can be naturally extended to other complex retrieval-augmented generation tasks.
- Abstract(参考訳): 妊娠中絶やワクチン接種といった議論の的となっている話題に対する回答や要約を生成する計算的議論は、今日の分極化環境においてますます重要になっている。
高度化 LLM 能力は、高品質で根拠のある議論に現実世界の証拠を活用するレトリーヴァル拡張論証(RAArg)を通じて、これらの質問に対して、ニュアンスで証拠に基づく答えを提供する可能性を提供する。
しかし、複雑なトピックに対する複雑で長い回答には人的評価が費用がかかり難いため、RAArgの評価は依然として困難である。
同時に、既存の議論データセットの再利用はもはや不十分であり、長い複雑な議論と、潜在的に誤解を招く可能性のある情報源からの現実的な証拠が欠如しており、検索の有効性と議論品質の全体的評価が制限されている。
これらのギャップに対処するために,複数の微粒なLCM判定器を用いた自動評価手法について検討し,従来のシングルスコアの指標や以前に報告された人的クラウドソーシングよりも優れた,解釈可能な評価を提供する。
提案手法を検証するために,議論されたトピックに関する長く複雑な人間による議論を現実のウェブサイトに掲載した新しいベンチマークであるConQRetを導入する。
我々は、以前のデータセットと新しいConQRetベンチマークに基づいてLLMジャッジを検証する。
提案した LLM Judges と ConQRet ベンチマークは,計算議論の急速な進展を可能とし,他の複雑な検索拡張生成タスクに自然に拡張することができる。
関連論文リスト
- JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - Evaluating the Retrieval Component in LLM-Based Question Answering Systems [1.7013938542585922]
本研究では,Retrieval-Augmented Generation (RAG)ベースのチャットボットにおける検索者評価のためのベースラインを提案する。
以上の結果から, この評価フレームワークは, 検索者の動作状況をよりよく把握できることを示した。
本手法では,無関係な文脈を無視するLLMの強みと,その応答における潜在的な誤りや幻覚を考察する。
論文 参考訳(メタデータ) (2024-06-10T16:46:22Z) - Are Large Language Models Reliable Argument Quality Annotators? [7.966402845339264]
議論品質アノテータのプロキシとして,最先端の大規模言語モデル (LLM) を用いる可能性について検討する。
以上の結果から,LSMは人間専門家と中程度に高い合意を得て,一貫したアノテーションを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T11:54:27Z) - Argument Quality Assessment in the Age of Instruction-Following Large Language Models [45.832808321166844]
そのような応用において重要なタスクは、議論の質を評価することである。
我々は,質概念の多様性と認識の主観性を,議論品質評価における実質的な進歩への主要なハードルとみなす。
インストラクション追従型大規模言語モデル(LLM)がコンテキストを越えた知識を活用できることは,より信頼性の高い評価を可能にしている,と我々は主張する。
論文 参考訳(メタデータ) (2024-03-24T10:43:21Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Argue with Me Tersely: Towards Sentence-Level Counter-Argument
Generation [62.069374456021016]
本稿では,文レベル逆問題生成のためのArgTerselyベンチマークを提案する。
また,Arg-LlaMAによる高品質な逆問題生成手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T06:51:34Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Rethinking the Evaluation for Conversational Recommendation in the Era
of Large Language Models [115.7508325840751]
近年の大規模言語モデル(LLM)の成功は、より強力な対話レコメンデーションシステム(CRS)を開発する大きな可能性を示している。
本稿では,ChatGPTの会話レコメンデーションへの活用について検討し,既存の評価プロトコルが不十分であることを明らかにする。
LLMをベースとしたユーザシミュレータを用いた対話型評価手法iEvaLMを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:12:43Z) - Contextualizing Argument Quality Assessment with Relevant Knowledge [11.367297319588411]
SPARKは、関連する知識による文脈化に基づく議論品質を評価するための新しい手法である。
我々は、大きな言語モデルを利用してフィードバックを提供したり、隠れた仮定を推測したり、同様の品質の議論を提供したり、あるいは反論をしたりする4つの拡張を考案する。
論文 参考訳(メタデータ) (2023-05-20T21:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。