論文の概要: Claim Check-Worthiness Detection: How Well do LLMs Grasp Annotation Guidelines?
- arxiv url: http://arxiv.org/abs/2404.12174v2
- Date: Mon, 21 Oct 2024 11:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:45.569151
- Title: Claim Check-Worthiness Detection: How Well do LLMs Grasp Annotation Guidelines?
- Title(参考訳): クレームチェック-Worthiness Detection: LLMs Grasp Annotation Guidelinesはどの程度有効か?
- Authors: Laura Majer, Jan Šnajder,
- Abstract要約: ファクトチェックを必要とするテキストセグメントを識別するために、ゼロショットと少数ショットのLCMプロンプトを使用する。
各種領域の5つのCD/CWデータセットに対して,LLMの予測精度と校正精度を評価した。
提案手法により, 最適急進的冗長性はドメイン依存であり, 文脈の追加は性能を向上しないことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The increasing threat of disinformation calls for automating parts of the fact-checking pipeline. Identifying text segments requiring fact-checking is known as claim detection (CD) and claim check-worthiness detection (CW), the latter incorporating complex domain-specific criteria of worthiness and often framed as a ranking task. Zero- and few-shot LLM prompting is an attractive option for both tasks, as it bypasses the need for labeled datasets and allows verbalized claim and worthiness criteria to be directly used for prompting. We evaluate the LLMs' predictive and calibration accuracy on five CD/CW datasets from diverse domains, each utilizing a different worthiness criterion. We investigate two key aspects: (1) how best to distill factuality and worthiness criteria into a prompt and (2) what amount of context to provide for each claim. To this end, we experiment with varying the level of prompt verbosity and the amount of contextual information provided to the model. Our results show that optimal prompt verbosity is domain-dependent, adding context does not improve performance, and confidence scores can be directly used to produce reliable check-worthiness rankings.
- Abstract(参考訳): 偽情報に対する脅威が高まるにつれ、ファクトチェックパイプラインの一部を自動化することが求められている。
ファクトチェックを必要とするテキストセグメントを識別することは、クレーム検出(CD)とクレームチェック能の検出(CW)として知られている。
ラベル付きデータセットの必要性を回避し、言語化されたクレームと価値のある基準を直接使用できるようにするため、ゼロショットと少数ショットのLLMプロンプトは両方のタスクにとって魅力的な選択肢である。
各種領域の5つのCD/CWデータセットに対して,LLMの予測精度と校正精度を評価し,それぞれ異なる価値基準を用いて評価した。
本研究は,(1) 事実性および有益性基準の抽出方法と,(2) 各クレームにどのような文脈を提供するかという2つの重要な側面を考察する。
この目的のために、我々は、モデルに提供された素早い冗長性レベルと文脈情報の量を変化させて実験を行った。
本研究の結果から, 最適急激な冗長性はドメイン依存であり, コンテキストの追加は性能向上には至らず, 信頼度スコアを直接利用して, 信頼度ランキングを作成できることがわかった。
関連論文リスト
- RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Best in Tau@LLMJudge: Criteria-Based Relevance Evaluation with Llama3 [5.478764356647438]
そこで本稿では,大規模言語モデル (LLM) を付加する代替手法を提案する。
基準レベルのグレードを関連ラベルに集約する様々な方法を検討する。
2024年夏に発生した LLMJudge Challenge のデータをもとに,我々のアプローチを実証的に評価する。
論文 参考訳(メタデータ) (2024-10-17T21:37:08Z) - Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - CONFLARE: CONFormal LArge language model REtrieval [0.0]
Retrieval-augmented Generation (RAG)フレームワークは、大規模言語モデル(LLM)が知識ベースから関連する情報を検索し、応答を生成するコンテキストに組み込むことを可能にする。
RAGは、検索が必要な情報を応答生成のコンテキストとして識別できない場合、有効な応答を保証しない。
本稿では,RAGフレームワークにおける検索不確実性を定量化するために,共形予測を適用するための4段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-04T02:58:21Z) - AFaCTA: Assisting the Annotation of Factual Claim Detection with Reliable LLM Annotators [38.523194864405326]
AFaCTAは、事実主張のアノテーションを支援する新しいフレームワークである。
AFaCTAは、3つの事前定義された推論経路に沿って、アノテーションの信頼度を一貫性で調整する。
PoliClaimは、さまざまな政治的トピックにまたがる包括的なクレーム検出データセットである。
論文 参考訳(メタデータ) (2024-02-16T20:59:57Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.876355290198639]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - Benchmarking Answer Verification Methods for Question Answering-Based
Summarization Evaluation Metrics [74.28810048824519]
質問応答に基づく要約評価メトリクスは、QAモデルの予測が正しいかどうかを自動的に判断する必要がある。
筆者らは,現在QAベースのメトリクスで使用されている語彙的回答検証手法と,より洗練された2つのテキスト比較手法をベンチマークした。
論文 参考訳(メタデータ) (2022-04-21T15:43:45Z) - Assessing Effectiveness of Using Internal Signals for Check-Worthy Claim
Identification in Unlabeled Data for Automated Fact-Checking [6.193231258199234]
本稿では,偽ニュース記事からチェック価値のあるクレーム文を特定する手法について検討する。
我々は2つの内部監督信号(見出しと抽象的な要約)を利用して文をランク付けする。
見出しは、ファクトチェックのWebサイトがクレームを記述する方法とよく似ているが、要約ベースのパイプラインは、エンドツーエンドのファクトチェックシステムにとって最も有望である。
論文 参考訳(メタデータ) (2021-11-02T16:17:20Z) - Assessing Data Efficiency in Task-Oriented Semantic Parsing [54.87705549021248]
我々は、ある品質バーを達成するのに、ドメイン内の「ターゲット」データがどれだけ必要であるかを近似した4段階のプロトコルを導入する。
我々は,タスク指向セマンティック解析の実践者に対して,その柔軟性と適用性を示す実世界の2つのケーススタディに適用する。
論文 参考訳(メタデータ) (2021-07-10T02:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。