論文の概要: CHAIR-Classifier of Hallucination as Improver
- arxiv url: http://arxiv.org/abs/2501.02518v1
- Date: Sun, 05 Jan 2025 12:15:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:39.281420
- Title: CHAIR-Classifier of Hallucination as Improver
- Title(参考訳): 改善剤としての幻覚のCHAIR分類器
- Authors: Ao Sun,
- Abstract要約: 本稿では,大規模言語モデルにおける幻覚検出のための教師付き手法を提案する。
LLaMAモデルの層間におけるトークンスコア(対数炎)を分析することで,最大値,最小値,平均値,標準偏差,傾斜値といった特徴の過剰適合を低減することを目的とした,小さなセットを導出する。
- 参考スコア(独自算出の注目度): 1.397828249435483
- License:
- Abstract: This paper presents a supervised method for detecting hallucinations in large language models. By analyzing token scores (logitis) across layers of the LLaMA model, we derive a small set, aiming to reduce overfitting, of features-including maximum, minimum, mean, standard deviation, and slope. We use logistic regression for classification and validate the model on the TruthfulQA and MMLU datasets. The results demonstrate significant performance gains, especially in zero-shot scenarios, highlighting the effectiveness and potential for generalization.
- Abstract(参考訳): 本稿では,大規模言語モデルにおける幻覚検出のための教師付き手法を提案する。
LLaMAモデルの層にまたがるトークンスコア(対物炎)を解析することにより,最大,最小,平均,標準偏差,傾斜などのオーバーフィッティングを減らすことを目的とした,小さなセットを導出する。
分類にはロジスティック回帰を用いており、TruthfulQAおよびMMLUデータセット上でモデルを検証している。
その結果、特にゼロショットのシナリオでは性能が著しく向上し、一般化の有効性と可能性を強調した。
関連論文リスト
- Layer Importance and Hallucination Analysis in Large Language Models via Enhanced Activation Variance-Sparsity [5.854247492297834]
本稿では,アクティベーション・ヴァリタンス・スパーシリティスコア(AVSS)を用いて,まず層の重要性を考察する。
AVSSを基盤として,レイヤ間の幻覚の適合性を評価するための改良版を提案する。
この改良されたアプローチは、Halucination-Specific Activation Variance(HSAV)とHalucination-Specific Sparsity(HSS)メトリクスを導入し、Halucination-prone層の正確な識別を可能にする。
論文 参考訳(メタデータ) (2024-11-15T09:33:47Z) - THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models [0.0]
事実的に誤ったコンテンツの生成である幻覚は、大規模言語モデルにおいてますます困難になっている。
本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMESを紹介する。
THaMES は LLM における幻覚の評価と緩和のためのエンドツーエンドのソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-17T16:55:25Z) - A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。
ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T17:46:18Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Evolving parametrized Loss for Image Classification Learning on Small
Datasets [1.4685355149711303]
本稿ではメタロスネットワーク(MLN)と呼ばれるパラメタ化損失関数の進化のためのメタラーニング手法を提案する。
本手法では,MLNを識別対象関数として分類学習の枠組みに組み込む。
実験の結果,MLNは古典的クロスエントロピー誤差や平均二乗誤差と比較して,一般化を効果的に改善した。
論文 参考訳(メタデータ) (2021-03-15T10:00:18Z) - A Modified Perturbed Sampling Method for Local Interpretable
Model-agnostic Explanation [35.281127405430674]
LIME(Local Interpretable Model-Agnostic Explanation)は、任意の分類器の予測を忠実に説明する手法である。
本稿では,LIME (MPS-LIME) のための改良型摂動サンプリング操作を提案する。
画像分類において、MPS-LIMEはスーパーピクセル画像を非方向グラフに変換する。
論文 参考訳(メタデータ) (2020-02-18T09:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。