論文の概要: CogniBench: A Legal-inspired Framework and Dataset for Assessing Cognitive Faithfulness of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.20767v2
- Date: Wed, 28 May 2025 06:17:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 12:33:41.765848
- Title: CogniBench: A Legal-inspired Framework and Dataset for Assessing Cognitive Faithfulness of Large Language Models
- Title(参考訳): CogniBench: 大規模言語モデルの認知的信条を評価するための法律に触発されたフレームワークとデータセット
- Authors: Xiaqiang Tang, Jian Li, Keyu Hu, Du Nan, Xiaolong Li, Xi Zhang, Weigao Sun, Sihong Xie,
- Abstract要約: 既存のベンチマークには、"認知的ステートメント"をマークせずにソース資料をリフレッシュする"実際のステートメント"のみが含まれている。
立法領域において証拠がどのように評価されるかに着想を得て、認知的言明の異なるレベルの忠実さを評価するための厳密な枠組みを設計する。
結果として得られる大規模なCogniBench-Lデータセットは、正確な認知幻覚検出モデルのトレーニングに使用することができる。
- 参考スコア(独自算出の注目度): 16.270591540135545
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Faithfulness hallucination are claims generated by a Large Language Model (LLM) not supported by contexts provided to the LLM. Lacking assessment standard, existing benchmarks only contain "factual statements" that rephrase source materials without marking "cognitive statements" that make inference from the given context, making the consistency evaluation and optimization of cognitive statements difficult. Inspired by how an evidence is assessed in the legislative domain, we design a rigorous framework to assess different levels of faithfulness of cognitive statements and create a benchmark dataset where we reveal insightful statistics. We design an annotation pipeline to create larger benchmarks for different LLMs automatically, and the resulting larger-scale CogniBench-L dataset can be used to train accurate cognitive hallucination detection model. We release our model and dataset at: https://github.com/FUTUREEEEEE/CogniBench
- Abstract(参考訳): 忠実な幻覚は、LLMに提供されるコンテキストによってサポートされないLarge Language Model (LLM)によって生成される主張である。
既存のベンチマークには、与えられた文脈から推論する「認知的ステートメント」をマークせずにソース資料を表現し、一貫性の評価と認知的ステートメントの最適化を困難にする「事実的ステートメント」しか含まれていない。
立法領域におけるエビデンスの評価方法に着想を得て、認知的ステートメントのさまざまなレベルの忠実度を評価するための厳密なフレームワークを設計し、洞察に富んだ統計を明らかにするためのベンチマークデータセットを作成します。
アノテーションパイプラインを設計し、異なるLLMのベンチマークを自動的に作成し、その結果、より大規模なCogniBench-Lデータセットを使用して正確な認知幻覚検出モデルをトレーニングする。
私たちはモデルとデータセットをhttps://github.com/FUTUREEEEEE/CogniBenchでリリースします。
関連論文リスト
- VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Knowledge Verification to Nip Hallucination in the Bud [69.79051730580014]
本研究では、アライメントデータに存在する外部知識と基礎LPM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。
本稿では,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる新しい手法を提案する。
6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。
論文 参考訳(メタデータ) (2024-01-19T15:39:49Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。