論文の概要: CANDY: Benchmarking LLMs' Limitations and Assistive Potential in Chinese Misinformation Fact-Checking
- arxiv url: http://arxiv.org/abs/2509.03957v1
- Date: Thu, 04 Sep 2025 07:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.08978
- Title: CANDY: Benchmarking LLMs' Limitations and Assistive Potential in Chinese Misinformation Fact-Checking
- Title(参考訳): CANDY:中国の誤情報チェックにおけるLLMの限界と補助可能性のベンチマーク
- Authors: Ruiling Guo, Xinwei Yang, Chen Huang, Tong Zhang, Yong Hu,
- Abstract要約: CANDYは,中国語の誤情報の事実チェックにおいて,大規模言語モデル(LLM)の機能と限界を評価するために設計されたベンチマークである。
分析の結果,現在のLCMでは,チェーン・オブ・シークレットの推論や数発のプロンプトによって強化された場合でも,正確な事実チェックの結論が得られないことがわかった。
LLMは事実チェックには信頼性が低いが,本研究の結果から,シナリオにおける補助ツールとして展開する際の人的パフォーマンス向上の可能性が示唆された。
- 参考スコア(独自算出の注目度): 16.10780837612994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effectiveness of large language models (LLMs) to fact-check misinformation remains uncertain, despite their growing use. To this end, we present CANDY, a benchmark designed to systematically evaluate the capabilities and limitations of LLMs in fact-checking Chinese misinformation. Specifically, we curate a carefully annotated dataset of ~20k instances. Our analysis shows that current LLMs exhibit limitations in generating accurate fact-checking conclusions, even when enhanced with chain-of-thought reasoning and few-shot prompting. To understand these limitations, we develop a taxonomy to categorize flawed LLM-generated explanations for their conclusions and identify factual fabrication as the most common failure mode. Although LLMs alone are unreliable for fact-checking, our findings indicate their considerable potential to augment human performance when deployed as assistive tools in scenarios. Our dataset and code can be accessed at https://github.com/SCUNLP/CANDY
- Abstract(参考訳): 大規模言語モデル(LLMs)の誤報の事実チェックの有効性は、その利用が増加しているにもかかわらず、いまだに不確実である。
そこで本研究では,中国の誤報の事実チェックにおいて,LLMの能力と限界を体系的に評価するベンチマークCANDYを提案する。
具体的には、約20kインスタンスの注意深い注釈付きデータセットをキュレートする。
分析の結果,現在のLCMでは,チェーン・オブ・シークレットの推論や数発のプロンプトによって強化された場合でも,正確な事実チェックの結論が得られないことがわかった。
これらの限界を理解するため,本研究では,LLM生成の欠陥を結論として分類し,ファクトマニュファクチャリングを最も一般的な障害モードとみなす分類法を開発した。
LLMは事実チェックには信頼性が低いが,本研究の結果から,シナリオにおける補助ツールとして展開する際の人的パフォーマンス向上の可能性が示唆された。
私たちのデータセットとコードはhttps://github.com/SCUNLP/CANDYでアクセスできます。
関連論文リスト
- Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - "I know myself better, but not really greatly": How Well Can LLMs Detect and Explain LLM-Generated Texts? [10.454446545249096]
本稿では,2進(人間対LLM生成)と3進分類(未決定クラスを含む)の2つの設定において,現在のLLMの検出と説明能力について検討する。
異なる大きさの6つのオープンソースLCMを評価し、自己検出(LLM)が相互検出(他のLCMからの出力の同定)を一貫して上回っていることを発見した。
本研究は, 自己検出・自己説明における現在のLCMの限界を浮き彫りにして, 過度に適合し, 一般化性を高めるためのさらなる研究の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-02-18T11:00:28Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [29.433401785920065]
大規模言語モデル(LLM)は、高い確率で因果引数を生成することができる。
LLMは人間のドメインの専門家によって因果解析のセットアップの労力を節約するために使われる。
論文 参考訳(メタデータ) (2023-04-28T19:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。