論文の概要: Efficiency and Effectiveness of LLM-Based Summarization of Evidence in Crowdsourced Fact-Checking
- arxiv url: http://arxiv.org/abs/2501.18265v2
- Date: Thu, 01 May 2025 14:05:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.239971
- Title: Efficiency and Effectiveness of LLM-Based Summarization of Evidence in Crowdsourced Fact-Checking
- Title(参考訳): クラウドソースFact-CheckingにおけるLCMによる証拠の要約の有効性と有効性
- Authors: Kevin Roitero, Dustin Wright, Michael Soprano, Isabelle Augenstein, Stefano Mizzaro,
- Abstract要約: オンラインコンテンツの真偽を評価することは 誤報と戦うのに重要です
本研究では,2つのアプローチの比較分析により,クラウドソーシングによる真性評価の有効性と有効性を検討した。
- 参考スコア(独自算出の注目度): 39.26789981311121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the truthfulness of online content is critical for combating misinformation. This study examines the efficiency and effectiveness of crowdsourced truthfulness assessments through a comparative analysis of two approaches: one involving full-length webpages as evidence for each claim, and another using summaries for each evidence document generated with a large language model. Using an A/B testing setting, we engage a diverse pool of participants tasked with evaluating the truthfulness of statements under these conditions. Our analysis explores both the quality of assessments and the behavioral patterns of participants. The results reveal that relying on summarized evidence offers comparable accuracy and error metrics to the Standard modality while significantly improving efficiency. Workers in the Summary setting complete a significantly higher number of assessments, reducing task duration and costs. Additionally, the Summary modality maximizes internal agreement and maintains consistent reliance on and perceived usefulness of evidence, demonstrating its potential to streamline large-scale truthfulness evaluations.
- Abstract(参考訳): オンラインコンテンツの真偽を評価することは、誤った情報と戦うために重要である。
本研究では,クラウドソーシングによる真理性評価の効率と有効性について,各クレームの証拠としてフル長のWebページを含むものと,大規模言語モデルで生成された各証拠文書の要約を用いた2つのアプローチの比較分析により検討した。
A/Bテスト設定を用いて、これらの条件下でのステートメントの真正性を評価するための様々な参加者のプールに取り組みます。
本分析では,評価の質と参加者の行動パターンについて検討する。
その結果、要約されたエビデンスに依存すると、標準モダリティに匹敵する精度と誤差の指標が得られ、効率は大幅に向上することがわかった。
概要設定の作業員は、タスクの時間とコストを削減し、はるかに多くのアセスメントを完了します。
さらに、要約のモダリティは内部合意を最大化し、証拠の有用性への一貫した信頼と認識を維持し、大規模な真理性評価の合理化の可能性を示す。
関連論文リスト
- Agent-as-Judge for Factual Summarization of Long Narratives [20.3296043006896]
大規模言語モデル(LLM)は、ROUGEやBERTScoreといった従来のメトリクスに基づいた要約タスクにおいて、ほぼ人間に近い性能を示す。
LLM-as-a-Judgeのような最近の進歩は、語彙的類似性に基づくメトリクスの限界に対処するが、実際には矛盾を示す。
本稿では,要約を評価・精査するための新しい「Agent-as-a-Judge」フレームワークであるNarrativeFactScoreを紹介する。
論文 参考訳(メタデータ) (2025-01-17T07:23:06Z) - Evaluate Summarization in Fine-Granularity: Auto Evaluation with LLM [11.995534662701132]
要約を正確に客観的に評価することは 重大な課題です
ROUGEのような既存の手法では、人間の判断と相関の低いスコアがしばしば得られる。
これらの課題に対処するために,新しい評価手法とツールを導入する。
論文 参考訳(メタデータ) (2024-12-27T19:42:25Z) - RevisEval: Improving LLM-as-a-Judge via Response-Adapted References [95.29800580588592]
RevisEvalは、応答適応参照による新しいテキスト生成評価パラダイムである。
RevisEvalは、理想的な参照が評価される応答に対する必要な関連性を維持するべきであるというキーオブザーバーによって駆動される。
論文 参考訳(メタデータ) (2024-10-07T16:50:47Z) - A Critical Look at Meta-evaluating Summarisation Evaluation Metrics [11.541368732416506]
私たちは、より堅牢な評価指標の開発を可能にする、より多様なベンチマークを構築するのに時間がかかっていると論じています。
我々は、生成された要約のコミュニケーション目標を考慮に入れた、ユーザ中心の品質次元に焦点を当てた研究を求めている。
論文 参考訳(メタデータ) (2024-09-29T01:30:13Z) - From Text to Insight: Leveraging Large Language Models for Performance Evaluation in Management [6.70908766695241]
本研究では,大規模言語モデル(LLM),特にGPT-4の可能性を探り,組織的タスクパフォーマンス評価における客観性を高める。
以上の結果から,GPT評価は人間の評価に匹敵するが,一貫性と信頼性が高いことが示唆された。
LLMはテキストベースのデータから意味のある構成物を抽出できるが、その範囲は特定のパフォーマンス評価形式に限定されている。
論文 参考訳(メタデータ) (2024-08-09T20:35:10Z) - Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。
このフレームワークは、評価の推測と報告のための体系的な構造を提供する。
我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文 参考訳(メタデータ) (2024-06-14T18:47:37Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - Improving Factuality of Abstractive Summarization via Contrastive Reward
Learning [77.07192378869776]
本稿では,報酬学習と実効性指標の最近の発展を取り入れた,シンプルだが効果的なコントラスト学習フレームワークを提案する。
実証的研究により,提案手法により,実測値のフィードバックから要約モデルを学習できることが実証された。
論文 参考訳(メタデータ) (2023-07-10T12:01:18Z) - Improving Faithfulness of Abstractive Summarization by Controlling
Confounding Effect of Irrelevant Sentences [38.919090721583075]
事実整合性は、共同創設者として機能する入力テキストの無関係な部分によって引き起こされる可能性があることを示す。
そこで我々は,人間が記述した関連文を利用できる場合に利用することにより,そのような欠点を抑えるためのシンプルなマルチタスクモデルを設計する。
提案手法は,AnswerSumm citepfabbri 2021answersummデータセットの強いベースラインに対して,忠実度スコアを20%向上させる。
論文 参考訳(メタデータ) (2022-12-19T18:51:06Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - Analyzing and Evaluating Faithfulness in Dialogue Summarization [67.07947198421421]
まず,対話要約の忠実度に関するきめ細かな人間の分析を行い,生成した要約の35%以上がソース対話に忠実に一致していないことを観察する。
そこで本研究では,ルールベース変換により生成した複数選択質問を用いたモデルレベルの忠実度評価手法を提案する。
論文 参考訳(メタデータ) (2022-10-21T07:22:43Z) - Factual Consistency Evaluation for Text Summarization via Counterfactual
Estimation [42.63902468258758]
本稿では,テキスト要約における事実整合性を評価するための新しい指標を提案する。
我々は3つの公開抽象テキスト要約データセットについて一連の実験を行った。
論文 参考訳(メタデータ) (2021-08-30T11:48:41Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。