論文の概要: Collecting Cost-Effective, High-Quality Truthfulness Assessments with LLM Summarized Evidence
- arxiv url: http://arxiv.org/abs/2501.18265v1
- Date: Thu, 30 Jan 2025 11:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:20.645718
- Title: Collecting Cost-Effective, High-Quality Truthfulness Assessments with LLM Summarized Evidence
- Title(参考訳): LLM要約エビデンスによる費用効果・高品質真実性評価の収集
- Authors: Kevin Roitero, Dustin Wright, Michael Soprano, Isabelle Augenstein, Stefano Mizzaro,
- Abstract要約: A/Bテスト環境で生成された要約と元のWebページの使用を比較した。
評価の質,評価の効率,参加者の行動と関与を評価した。
- 参考スコア(独自算出の注目度): 39.26789981311121
- License:
- Abstract: With the degradation of guardrails against mis- and disinformation online, it is more critical than ever to be able to effectively combat it. In this paper, we explore the efficiency and effectiveness of using crowd-sourced truthfulness assessments based on condensed, large language model (LLM) generated summaries of online sources. We compare the use of generated summaries to the use of original web pages in an A/B testing setting, where we employ a large and diverse pool of crowd-workers to perform the truthfulness assessment. We evaluate the quality of assessments, the efficiency with which assessments are performed, and the behavior and engagement of participants. Our results demonstrate that the Summary modality, which relies on summarized evidence, offers no significant change in assessment accuracy over the Standard modality, while significantly increasing the speed with which assessments are performed. Workers using summarized evidence produce a significantly higher number of assessments in the same time frame, reducing the cost needed to acquire truthfulness assessments. Additionally, the Summary modality maximizes both the inter-annotator agreements as well as the reliance on and perceived usefulness of evidence, demonstrating the utility of summarized evidence without sacrificing the quality of assessments.
- Abstract(参考訳): オンラインでの誤報や偽情報に対するガードレールの劣化により、効果的に戦えることはこれまでになく重要になっている。
本稿では,クラウドソースを用いた大規模言語モデル(LLM)によるオンライン情報源の要約に基づく真性評価の有効性と有効性について検討する。
我々は,A/Bテスト環境において生成した要約と原ページの利用を比較し,その真理性評価を行うために,大規模で多種多様なクラウドワーカーを雇う。
評価の質,評価の効率,参加者の行動と関与を評価した。
以上の結果から,要約された証拠に依拠する要約モダリティは,標準モダリティよりも評価精度に有意な変化をもたらすことなく,評価を行う速度を著しく向上させることを示した。
要約されたエビデンスを使用する労働者は、同時に非常に多くのアセスメントを発生させ、真理性アセスメントを取得するのに必要なコストを削減した。
さらに、要約のモダリティは、アノテータ間の合意と、証拠の有効性への依存と認識の両方を最大化し、評価の質を犠牲にすることなく、要約された証拠の有用性を実証する。
関連論文リスト
- Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge [90.8674158031845]
提案するクラウド・ベース・コンピレーション・アセスメントは,提案するクラウド・レスポンスを,候補の応答と比較するための追加のクラウド・レスポンスを導入する。
このプロセスはLLM-as-a-Judgeを効果的に誘導し、より詳細なCoT判定を提供する。
提案手法は, 高い品質のCoTを製造し, 蒸留を判断し, 拒絶サンプリングにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-18T03:31:06Z) - Agent-as-Judge for Factual Summarization of Long Narratives [20.3296043006896]
大規模言語モデル(LLM)は、ROUGEやBERTScoreといった従来のメトリクスに基づいた要約タスクにおいて、ほぼ人間に近い性能を示す。
LLM-as-a-Judgeのような最近の進歩は、語彙的類似性に基づくメトリクスの限界に対処するが、実際には矛盾を示す。
本稿では,要約を評価・精査するための新しい「Agent-as-a-Judge」フレームワークであるNarrativeFactScoreを紹介する。
論文 参考訳(メタデータ) (2025-01-17T07:23:06Z) - RevisEval: Improving LLM-as-a-Judge via Response-Adapted References [95.29800580588592]
RevisEvalは、応答適応参照による新しいテキスト生成評価パラダイムである。
RevisEvalは、理想的な参照が評価される応答に対する必要な関連性を維持するべきであるというキーオブザーバーによって駆動される。
論文 参考訳(メタデータ) (2024-10-07T16:50:47Z) - A Critical Look at Meta-evaluating Summarisation Evaluation Metrics [11.541368732416506]
私たちは、より堅牢な評価指標の開発を可能にする、より多様なベンチマークを構築するのに時間がかかっていると論じています。
我々は、生成された要約のコミュニケーション目標を考慮に入れた、ユーザ中心の品質次元に焦点を当てた研究を求めている。
論文 参考訳(メタデータ) (2024-09-29T01:30:13Z) - Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。
このフレームワークは、評価の推測と報告のための体系的な構造を提供する。
我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文 参考訳(メタデータ) (2024-06-14T18:47:37Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。