論文の概要: A Claim Decomposition Benchmark for Long-form Answer Verification
- arxiv url: http://arxiv.org/abs/2410.12558v1
- Date: Wed, 16 Oct 2024 13:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:18.614718
- Title: A Claim Decomposition Benchmark for Long-form Answer Verification
- Title(参考訳): 長文Answer検証のためのクレーム分解ベンチマーク
- Authors: Zhihao Zhang, Yixing Fan, Ruqing Zhang, Jiafeng Guo,
- Abstract要約: 我々は,LLM応答に対する原子的およびチェック価値のあるクレームを識別できるビルディングシステムを必要とする,新たなクレーム分解ベンチマークを導入する。
CACDDは、合計4956個の原子クレームを含む、500個の人間による注釈付き質問応答ペアを包含している。
その結果,クレームの分解は非常に困難であり,さらなる探索が必要であることが示された。
- 参考スコア(独自算出の注目度): 42.27949634354242
- License:
- Abstract: The advancement of LLMs has significantly boosted the performance of complex long-form question answering tasks. However, one prominent issue of LLMs is the generated "hallucination" responses that are not factual. Consequently, attribution for each claim in responses becomes a common solution to improve the factuality and verifiability. Existing researches mainly focus on how to provide accurate citations for the response, which largely overlook the importance of identifying the claims or statements for each response. To bridge this gap, we introduce a new claim decomposition benchmark, which requires building system that can identify atomic and checkworthy claims for LLM responses. Specifically, we present the Chinese Atomic Claim Decomposition Dataset (CACDD), which builds on the WebCPM dataset with additional expert annotations to ensure high data quality. The CACDD encompasses a collection of 500 human-annotated question-answer pairs, including a total of 4956 atomic claims. We further propose a new pipeline for human annotation and describe the challenges of this task. In addition, we provide experiment results on zero-shot, few-shot and fine-tuned LLMs as baselines. The results show that the claim decomposition is highly challenging and requires further explorations. All code and data are publicly available at \url{https://github.com/FBzzh/CACDD}.
- Abstract(参考訳): LLMの進歩により、複雑な長文質問応答タスクの性能が大幅に向上した。
しかし、LLMの顕著な問題は、事実ではない「幻覚」反応が生成されることである。
その結果、応答における各クレームの帰属は、事実性と検証可能性を改善するための共通の解となる。
既存の研究は主に、応答に対する正確な引用を提供する方法に焦点を当てており、各応答に対するクレームやステートメントを特定することの重要性を概ね見落としている。
このギャップを埋めるために、我々はLLM応答に対する原子的およびチェック価値のあるクレームを識別できるビルディングシステムを必要とする新しいクレーム分解ベンチマークを導入する。
具体的には、WebCPMデータセット上に構築された中国原子クレーム分解データセット(CACDD)について、高いデータ品質を保証するための専門家アノテーションを付加する。
CACDDは、合計4956個の原子クレームを含む、500個の人間による注釈付き質問応答ペアを包含している。
さらに、人間のアノテーションのための新しいパイプラインを提案し、このタスクの課題について述べる。
さらに,ゼロショット,少数ショット,微調整LDMをベースラインとして実験結果を提供する。
その結果, クレームの分解は非常に困難であり, さらなる探索が必要であることがわかった。
すべてのコードとデータは \url{https://github.com/FBzzh/CACDD} で公開されている。
関連論文リスト
- Atomic Fact Decomposition Helps Attributed Question Answering [30.75332718824254]
Attributed Question Answering (AQA)は、質問に対する信頼できる回答と信頼できる属性レポートを提供することを目的としている。
本稿では,アトミックな事実分解に基づくRetrieval and Editingフレームワークを提案する。
生成した長文の回答を、命令調整されたLSMによって分子節と原子事実に分解する。
論文 参考訳(メタデータ) (2024-10-22T05:25:54Z) - RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
大規模言語モデル(LLM)は、内部(パラメトリック)知識にのみ依存して、事実的な回答を生成するのに苦労することが多い。
この制限に対処するため、Retrieval-Augmented Generation (RAG)システムでは、外部ソースから関連情報を検索することでLLMを強化している。
我々はLLMのランキング機能を活用してW-RAGを提案する。
論文 参考訳(メタデータ) (2024-08-15T22:34:44Z) - Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文 参考訳(メタデータ) (2024-07-16T17:23:16Z) - Attribute or Abstain: Large Language Models as Long Document Assistants [58.32043134560244]
LLMは人間が長い文書を扱うのを助けることができるが、幻覚で知られている。
既存の属性に対するアプローチはRAG設定でのみ評価されている。
これは、検索が不要な長いドキュメント設定とは大きく異なるが、助けになる可能性がある。
そこで本研究では,6種類の多種多様文書タスクのベンチマークであるLABと,異なる大きさの5つのLLMに対する属性に対する異なるアプローチの実験を行う。
論文 参考訳(メタデータ) (2024-07-10T16:16:02Z) - SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。
SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。
様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文 参考訳(メタデータ) (2024-04-17T01:15:54Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。