論文の概要: CogniBench: A Legal-inspired Framework and Dataset for Assessing Cognitive Faithfulness of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.20767v3
- Date: Fri, 30 May 2025 08:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.109359
- Title: CogniBench: A Legal-inspired Framework and Dataset for Assessing Cognitive Faithfulness of Large Language Models
- Title(参考訳): CogniBench: 大規模言語モデルの認知的信条を評価するための法律に触発されたフレームワークとデータセット
- Authors: Xiaqiang Tang, Jian Li, Keyu Hu, Du Nan, Xiaolong Li, Xi Zhang, Weigao Sun, Sihong Xie,
- Abstract要約: 忠実な幻覚は、LLMに提供されるコンテキストによってサポートされていないLarge Language Model (LLM)によって生成される主張である。
認知的ステートメントの様々なレベルの忠実度を評価するための厳密なフレームワークを開発し、CogniBenchデータセットを導入する。
これにより、大規模なCogniBench-Lデータセットが作成され、事実と認知の両方の幻覚に対する正確な検出器の訓練が容易になる。
- 参考スコア(独自算出の注目度): 16.270591540135545
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Faithfulness hallucinations are claims generated by a Large Language Model (LLM) not supported by contexts provided to the LLM. Lacking assessment standards, existing benchmarks focus on "factual statements" that rephrase source materials while overlooking "cognitive statements" that involve making inferences from the given context. Consequently, evaluating and detecting the hallucination of cognitive statements remains challenging. Inspired by how evidence is assessed in the legal domain, we design a rigorous framework to assess different levels of faithfulness of cognitive statements and introduce the CogniBench dataset where we reveal insightful statistics. To keep pace with rapidly evolving LLMs, we further develop an automatic annotation pipeline that scales easily across different models. This results in a large-scale CogniBench-L dataset, which facilitates training accurate detectors for both factual and cognitive hallucinations. We release our model and datasets at: https://github.com/FUTUREEEEEE/CogniBench
- Abstract(参考訳): 忠実な幻覚は、LLMが提供するコンテキストによってサポートされていないLarge Language Model (LLM)によって生成される主張である。
評価基準の欠如により、既存のベンチマークでは、ソース資料を言い換える「事実ステートメント」に焦点を当て、与えられたコンテキストから推論を行う「認知ステートメント」を見下ろしている。
その結果,認知的ステートメントの幻覚の評価と検出はいまだに困難である。
法的領域におけるエビデンスの評価方法に着想を得て、認知的ステートメントのさまざまなレベルの忠実さを評価するための厳密な枠組みを設計し、洞察に富んだ統計を明らかにするためのCogniBenchデータセットを導入します。
急速に進化するLCMの速度を維持するために,異なるモデルにまたがって容易にスケール可能な自動アノテーションパイプラインを更に開発する。
これにより、大規模なCogniBench-Lデータセットが作成され、事実と認知の両方の幻覚に対する正確な検出器の訓練が容易になる。
私たちは、モデルとデータセットをhttps://github.com/FUTUREEEEEE/CogniBenchでリリースします。
関連論文リスト
- VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Knowledge Verification to Nip Hallucination in the Bud [69.79051730580014]
本研究では、アライメントデータに存在する外部知識と基礎LPM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。
本稿では,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる新しい手法を提案する。
6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。
論文 参考訳(メタデータ) (2024-01-19T15:39:49Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。