論文の概要: Tell Me Why: Explainable Public Health Fact-Checking with Large Language Models
- arxiv url: http://arxiv.org/abs/2405.09454v1
- Date: Wed, 15 May 2024 15:49:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 13:06:44.689859
- Title: Tell Me Why: Explainable Public Health Fact-Checking with Large Language Models
- Title(参考訳): 大規模言語モデルによる説明可能な公衆衛生ファクトチェッキング
- Authors: Majid Zarharan, Pascal Wullschleger, Babak Behkam Kia, Mohammad Taher Pilehvar, Jennifer Foster,
- Abstract要約: 本稿では,大規模言語モデルによる公衆衛生クレームの検証に焦点をあてる。
各種オープンおよびクローズドソースモデルにおける0/fwショットプロンプトとパラメータ効率の微調整の有効性について検討する。
- 参考スコア(独自算出の注目度): 21.280725490520798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a comprehensive analysis of explainable fact-checking through a series of experiments, focusing on the ability of large language models to verify public health claims and provide explanations or justifications for their veracity assessments. We examine the effectiveness of zero/few-shot prompting and parameter-efficient fine-tuning across various open and closed-source models, examining their performance in both isolated and joint tasks of veracity prediction and explanation generation. Importantly, we employ a dual evaluation approach comprising previously established automatic metrics and a novel set of criteria through human evaluation. Our automatic evaluation indicates that, within the zero-shot scenario, GPT-4 emerges as the standout performer, but in few-shot and parameter-efficient fine-tuning contexts, open-source models demonstrate their capacity to not only bridge the performance gap but, in some instances, surpass GPT-4. Human evaluation reveals yet more nuance as well as indicating potential problems with the gold explanations.
- Abstract(参考訳): 本稿では,大規模言語モデルによる公衆衛生クレームの検証と,その妥当性評価に関する説明や正当化に焦点をあて,一連の実験を通じて説明可能な事実チェックの包括的分析を行う。
各種オープンおよびクローズドソースモデルにおける0/fwショットプロンプトとパラメータ効率の微調整の有効性を検討した。
重要なことは、以前に確立された自動メトリクスと、人的評価による新しい基準セットからなる二重評価手法を採用することである。
我々の自動評価は、ゼロショットシナリオにおいて、GPT-4がスタンドアウトパフォーマーとして現れるが、少数ショットおよびパラメータ効率の良い微調整コンテキストにおいて、オープンソースのモデルは、性能ギャップを埋めるだけでなく、GPT-4を超越する能力を示す。
人間の評価は、さらにニュアンスを増し、金の説明に潜在的な問題を示す。
関連論文リスト
- Self-Rationalization in the Wild: A Large Scale Out-of-Distribution Evaluation on NLI-related tasks [59.47851630504264]
自由文の説明は表現力があり理解しやすいが、多くのデータセットには注釈付き説明データがない。
我々は、T5-LargeモデルとOLMo-7Bモデルを微調整し、微調整データ品質、微調整サンプル数、少数ショット選択方法の影響を評価した。
モデルは、自然言語推論(NLI)、ファクトチェック、抽象的な要約における幻覚検出の3つのタスクにまたがる19の多様なOODデータセットで評価される。
論文 参考訳(メタデータ) (2025-02-07T10:01:32Z) - Benchmark on Peer Review Toxic Detection: A Challenging Task with a New Dataset [6.106100820330045]
この研究は、ピアレビューにおける毒性の検出という、重要だが未調査の領域を探求する。
まず、4つの異なるカテゴリにわたるピアレビューの毒性を定義し、OpenReviewプラットフォームからピアレビューのデータセットをキュレートする。
我々は、専用毒性検出モデルや感情分析モデルなど、様々なモデルをベンチマークする。
論文 参考訳(メタデータ) (2025-02-01T23:01:39Z) - Comparative Insights from 12 Machine Learning Models in Extracting Economic Ideology from Political Text [0.0]
本研究では、経済イデオロギーの検出において、12の機械学習モデルとモデルバリエーションの能力を体系的に評価する。
この分析は、粒度および集合レベルでのいくつかの生成、微調整、ゼロショットモデルの性能を評価する。
論文 参考訳(メタデータ) (2025-01-16T18:06:22Z) - Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models [51.067146460271466]
視覚生成モデルの評価には時間を要するし、計算コストもかかる。
本研究では,効率的,動的,多ラウンドな評価に人間的な戦略を用いる評価エージェントフレームワークを提案する。
1)効率性、2)多様なユーザニーズに合わせた迅速な評価、3)1つの数値スコア以上の説明可能性、4)さまざまなモデルやツールのスケーラビリティ。
論文 参考訳(メタデータ) (2024-12-10T18:52:39Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Zero-Shot Multi-task Hallucination Detection [8.539639901976594]
幻覚は、生成したテキストがソースへの忠実さを欠いているモデルにおいて、創発的な状態である。
幻覚を正式に定義し,ゼロショット設定における定量的検出のための枠組みを提案する。
幻覚検出では, モデル認識設定では0.78, モデル認識設定では0.61の精度が得られた。
論文 参考訳(メタデータ) (2024-03-18T20:50:26Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large
Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。
ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。
また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文 参考訳(メタデータ) (2023-10-20T20:17:09Z) - SocREval: Large Language Models with the Socratic Method for Reference-Free Reasoning Evaluation [78.23119125463964]
我々は,参照フリー推論評価における新規な設計手法であるSocREvalを開発した。
SocREvalはGPT-4の性能を大幅に改善し、既存の参照フリーおよび参照ベース推論評価指標を上回っている。
論文 参考訳(メタデータ) (2023-09-29T18:25:46Z) - OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics [53.779709191191685]
オープンエンドのストーリー生成指標を評価するためのベンチマークであるOpenMEVAを提案する。
OpenMEVAは、メトリクスの能力を評価するための包括的なテストスイートを提供する。
既存の指標は人間の判断と相関が低く、談話レベルの不整合を認識できず、推論知識が欠如していることが観察された。
論文 参考訳(メタデータ) (2021-05-19T04:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。