論文の概要: CHAIR -- Classifier of Hallucination as Improver
- arxiv url: http://arxiv.org/abs/2501.02518v2
- Date: Wed, 22 Jan 2025 11:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:30:15.085508
- Title: CHAIR -- Classifier of Hallucination as Improver
- Title(参考訳): CHAIR -- 改善剤としての幻覚の分類
- Authors: Ao Sun,
- Abstract要約: トークンの各層からの内部ロジットを分析し,幻覚を検出するための教師付きフレームワークであるCHAIR(Classifier of Hallucination As ImproveR)を紹介する。
本手法は,すべての層にまたがるトークンロジットから,最大,最小,平均,標準偏差,傾斜といった,コンパクトな特徴セットを抽出し,過剰に収まることなく効果的な幻覚検出を可能にする。
- 参考スコア(独自算出の注目度): 1.397828249435483
- License:
- Abstract: In this work, we introduce CHAIR (Classifier of Hallucination As ImproveR), a supervised framework for detecting hallucinations by analyzing internal logits from each layer of every token. Our method extracts a compact set of features such as maximum, minimum, mean, standard deviation, and slope-from the token logits across all layers, enabling effective hallucination detection without overfitting. Experiments on TruthfulQA and MMLU datasets demonstrate that CHAIR significantly improves detection accuracy, particularly in zero-shot scenarios, showcasing its robustness and generalizability. Beyond hallucination detection, CHAIR highlights the potential of using internal representations for designing advanced decoding strategies. By leveraging patterns in logits, we suggest that more sophisticated models and adaptive decoding methods could further reduce hallucinations and enhance text completion quality. CHAIR not only offers a practical solution for detecting hallucinations but also lays the groundwork for exploring richer representations in LLMs to improve their factuality and coherence.
- Abstract(参考訳): 本稿では,各トークンの各層からの内部ロジットを分析し,幻覚を検出するための教師付きフレームワークであるCHAIR(Classifier of Hallucination As ImproveR)を紹介する。
本手法は,すべての層にまたがるトークンロジットから,最大,最小,平均,標準偏差,傾斜といった,コンパクトな特徴セットを抽出し,過剰に収まることなく効果的な幻覚検出を可能にする。
TruthfulQAとMMLUデータセットの実験では、CHAIRは検出精度を大幅に向上し、特にゼロショットシナリオでは、その堅牢性と一般化性を示している。
幻覚検出以外にも、CHAIRは高度な復号戦略を設計するために内部表現を使用することの可能性を強調している。
ロジットのパターンを活用することにより、より洗練されたモデルと適応的な復号法が幻覚をさらに減らし、文章の完成性を高めることが示唆された。
CHAIRは幻覚を検出するための実用的なソリューションを提供するだけでなく、LLMにおけるより豊かな表現を探求し、それらの事実と一貫性を改善するための基礎となる。
関連論文リスト
- Layer Importance and Hallucination Analysis in Large Language Models via Enhanced Activation Variance-Sparsity [5.854247492297834]
本稿では,アクティベーション・ヴァリタンス・スパーシリティスコア(AVSS)を用いて,まず層の重要性を考察する。
AVSSを基盤として,レイヤ間の幻覚の適合性を評価するための改良版を提案する。
この改良されたアプローチは、Halucination-Specific Activation Variance(HSAV)とHalucination-Specific Sparsity(HSS)メトリクスを導入し、Halucination-prone層の正確な識別を可能にする。
論文 参考訳(メタデータ) (2024-11-15T09:33:47Z) - THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models [0.0]
事実的に誤ったコンテンツの生成である幻覚は、大規模言語モデルにおいてますます困難になっている。
本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMESを紹介する。
THaMES は LLM における幻覚の評価と緩和のためのエンドツーエンドのソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-17T16:55:25Z) - A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。
ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T17:46:18Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Evolving parametrized Loss for Image Classification Learning on Small
Datasets [1.4685355149711303]
本稿ではメタロスネットワーク(MLN)と呼ばれるパラメタ化損失関数の進化のためのメタラーニング手法を提案する。
本手法では,MLNを識別対象関数として分類学習の枠組みに組み込む。
実験の結果,MLNは古典的クロスエントロピー誤差や平均二乗誤差と比較して,一般化を効果的に改善した。
論文 参考訳(メタデータ) (2021-03-15T10:00:18Z) - A Modified Perturbed Sampling Method for Local Interpretable
Model-agnostic Explanation [35.281127405430674]
LIME(Local Interpretable Model-Agnostic Explanation)は、任意の分類器の予測を忠実に説明する手法である。
本稿では,LIME (MPS-LIME) のための改良型摂動サンプリング操作を提案する。
画像分類において、MPS-LIMEはスーパーピクセル画像を非方向グラフに変換する。
論文 参考訳(メタデータ) (2020-02-18T09:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。