論文の概要: Hallucination Detection via Activations of Open-Weight Proxy Analyzers
- arxiv url: http://arxiv.org/abs/2605.07209v1
- Date: Fri, 08 May 2026 03:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.787462
- Title: Hallucination Detection via Activations of Open-Weight Proxy Analyzers
- Title(参考訳): オープンウェイトプロキシアナライザーの活性化による幻覚検出
- Authors: Akshita Singh, Prabesh Paudel, Siddhartha Roy,
- Abstract要約: 大規模言語モデルにおける幻覚を検出するためのプロキシ・アナライザ・フレームワークを提案する。
生成モデルの内部を見る代わりに、ローカルにホストされた小さなオープンウェイトモデルを通して既存のテキストを読み、幻覚を見つける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a proxy-analyzer framework for detecting hallucinations in large language models. Instead of looking inside the generating model, our system reads already-generated text through a small locally hosted open-weight model and spots hallucinations using the reader's own internal activations. This works just as well when the generator is a closed API like GPT-4 as when it is any open-weight model. We built eighteen features grounded in how transformers process text, covering residual stream norms, per-head source-document attention, entropy, MLP activations, logit-lens trajectories, and three new token-level grounding statistics. We trained a stacking ensemble on 72,135 samples from five hallucination datasets. We tested across seven analyzer architectures from 0.5 billion to 9 billion parameters: Qwen2.5 at 0.5B and 7B, Gemma-2 at 2B and 9B, Pythia at 1.4B, and LLaMA-3 at both 3B and 8B. Across all seven, we consistently beat ReDeEP's token-level AUC of 0.73 on RAGTruth by 7.4 to 10.3 percentage points. Qwen2.5-7B reached an F1 of 0.717, just above ReDeEP's 0.713, while Qwen2.5-0.5B hit 0.706. The most striking finding is how tightly all seven models cluster: AUC spans only 2.3 percentage points across an eighteen-fold difference in model size. Even more surprising, our 3B LLaMA outperforms our 8B LLaMA on RAGTruth, showing that bigger is not always better even within the same model family. Both RAGTruth and LLM-AggreFact include outputs from multiple LLM families, so our results are not skewed toward any particular generator.
- Abstract(参考訳): 大規模言語モデルにおける幻覚検出のためのプロキシ・アナライザ・フレームワークを提案する。
我々のシステムは生成モデルの内部を見る代わりに、ローカルにホストされた小さなオープンウェイトモデルを通して既存のテキストを読み出し、読者の内部アクティベーションを用いて幻覚を見つける。
これは、ジェネレータがGPT-4のようなクローズドAPIである場合と同様に、オープンウェイトモデルである場合も同様に機能する。
我々は、トランスフォーマーがテキストの処理方法、残差ストリームノルム、ヘッド単位のソースドキュメントアテンション、エントロピー、MPPアクティベーション、ロジットレンズトラジェクトリ、および3つの新しいトークンレベルのグラウンドティング統計を網羅する18の機能を構築した。
5つの幻覚データセットから72,135個のサンプルの積み重ねアンサンブルを訓練した。
Qwen2.5 at 0.5B and 7B, Gemma-2 at 2B and 9B, Pythia at 1.4B, LLaMA-3 at 3B and 8B。
7点中、RAGTruthでReDeEPのトークンレベルAUCの0.73を7.4~10.3ポイント上回った。
Qwen2.5-7Bは0.717、ReDeEPの0.713を上回り、Qwen2.5-0.5Bは0.706に達した。
最も顕著な発見は、7つのモデルのクラスタの厳密さである: AUCはモデルサイズが18倍の違いに対してわずか2.3ポイントである。
さらに驚くべきことに、当社の3B LLaMAは、RAGTruthの8B LLaMAよりも優れています。
RAGTruth と LLM-AggreFact には複数の LLM ファミリーからの出力が含まれており、その結果は特定のジェネレータに対して歪まない。
関連論文リスト
- Delta-Based Neural Architecture Search: LLM Fine-Tuning via Code Diffs [48.83701310501069]
大規模言語モデル(LLM)は、ニューラルアーキテクチャ生成の強力な可能性を示している。
既存のアプローチは、ゼロから完全なモデル実装を生成します。
我々はデルタ符号生成法を提案し、細調整されたLLMはコンパクトな統一差分を生成する。
論文 参考訳(メタデータ) (2026-05-06T13:32:05Z) - Harmful Intent as a Geometrically Recoverable Feature of LLM Residual Streams [0.0]
有害な意図は、大きな言語モデル残ストリームから幾何的に回復可能である。
我々はこの幾何学を6つの方向決定戦略によって特徴づける。
AdvBenchはホールドアウトのHarmBenchとJailbreakBenchにAUROC 0.96で転送される。
論文 参考訳(メタデータ) (2026-04-20T23:02:37Z) - Gemma 4, Phi-4, and Qwen3: Accuracy-Efficiency Tradeoffs in Dense and MoE Reasoning Language Models [6.396911723204044]
Mixture-of-experts (MoE)言語モデルは、高密度モデルよりも優れた品質と効率のトレードオフをもたらすことがしばしば期待されている。
そこで本研究では,高密度および高密度なMoE設計にまたがる7つの推論指向命令調整モデルのベンチマークを示す。
論文 参考訳(メタデータ) (2026-04-08T12:50:52Z) - Benchmarking Linguistic Adaptation in Comparable-Sized LLMs: A Study of Llama-3.1-8B, Mistral-7B-v0.1, and Qwen3-8B on Romanized Nepali [0.0]
ネパール語はラテン文字で書かれたネパール語であり、ネパールにおける非公式なデジタルコミュニケーションの主流となっている。
本研究では、3つの同等サイズのオープンウェイトモデルにまたがる言語適応の系統的ベンチマークを示す。
論文 参考訳(メタデータ) (2026-03-25T07:02:51Z) - MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm [60.14048367611333]
MonkeyOCRはドキュメント解析のためのビジョン言語モデルである。
SRR(Structure-Recognition-Relation)三重項パラダイムを活用することで、最先端の技術の進歩を図っている。
論文 参考訳(メタデータ) (2025-06-05T16:34:57Z) - Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates [51.633266497799745]
思考テンプレートのスケーリングによる階層的LLM推論は、推論検索空間を効果的に最適化することができる。
i)類似または関連する推論問題に一般化可能な500ほどの高レベルな思考テンプレートを含む構造化・汎用的な思考テンプレートライブラリ,(ii)長いCoTではなく一連の思考テンプレート上で階層的な強化学習を行う,(iii)全く新しい推論スケーリングシステム,の3つの革新を紹介した。
論文 参考訳(メタデータ) (2025-02-10T18:51:47Z) - Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone [289.9290405258526]
我々は3.3兆のトークンでトレーニングされた38億のパラメータ言語モデルであるphi-3-miniを紹介する。
MMLUでは69%、MTベンチでは8.38である。
本稿では, phi-3.5-mini, phi-3.5-MoE, phi-3.5-Visionの3モデルを紹介する。
論文 参考訳(メタデータ) (2024-04-22T14:32:33Z) - On the Limitations of Large Language Models (LLMs): False Attribution [0.22499166814992438]
新しい幻覚指標-SHI(Simple Hallucination Index)を紹介する。
ゼロショット設定における3つのオープン SotA LLM のパワーを実験的に評価した。
論文 参考訳(メタデータ) (2024-04-06T13:38:15Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。