論文の概要: Reducing LLM Hallucinations using Epistemic Neural Networks
- arxiv url: http://arxiv.org/abs/2312.15576v1
- Date: Mon, 25 Dec 2023 01:17:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:26:58.830219
- Title: Reducing LLM Hallucinations using Epistemic Neural Networks
- Title(参考訳): 認識型ニューラルネットワークを用いたllm幻覚の軽減
- Authors: Shreyas Verma, Kien Tran, Yusuf Ali, Guangyu Min
- Abstract要約: 我々は,Llama-2 7B モデル上に ENN をトレーニングし,コントラストデコード機能拡張技術と組み合わせた。
我々は、次のトークン予測タスクのためにENNをトレーニングし、TruthfulQAデータセットの幻覚を減らすためにこの方法の有効性を探求する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reducing and detecting hallucinations in large language models is an open
research problem. In this project, we attempt to leverage recent advances in
the field of uncertainty estimation to reduce hallucinations in frozen large
language models. Epistemic neural networks have recently been proposed to
improve output joint distributions for large pre-trained models. ENNs are small
networks attached to large, frozen models to improve the model's joint
distributions and uncertainty estimates. In this work, we train an epistemic
neural network on top of the Llama-2 7B model combined with a contrastive
decoding feature enhancement technique. We are the first to train an ENN for
the next token prediction task and explore the efficacy of this method in
reducing hallucinations on the TruthfulQA dataset. In essence, we provide a
method that leverages a pre-trained model's latent embeddings to reduce
hallucinations.
- Abstract(参考訳): 大規模言語モデルにおける幻覚の低減と検出はオープンな研究課題である。
本研究では,凍結した大規模言語モデルにおける幻覚を減少させるために,不確実性推定の分野における最近の進歩を活用している。
大規模事前学習モデルの出力ジョイント分布を改善するために、エピステマティックニューラルネットワークが最近提案されている。
ENNは、モデルのジョイント分布と不確実性推定を改善するために、大きな凍結モデルに取り付けられた小さなネットワークである。
本研究では,llama-2 7bモデル上に認識型ニューラルネットワークを訓練し,コントラスト復号化特徴量拡張手法を組み合わせる。
我々は、次のトークン予測タスクのためにENNをトレーニングし、TruthfulQAデータセットの幻覚を減らすためにこの方法の有効性を探求する。
基本的に,学習済みモデルの潜伏埋め込みを利用した幻覚の低減手法を提案する。
関連論文リスト
- Interpretable Language Modeling via Induction-head Ngram Models [74.26720927767398]
誘導ヘッドngramモデル(Induction-Gram)を提案する。
この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。
実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-31T12:33:26Z) - Scalable Bayesian Inference in the Era of Deep Learning: From Gaussian Processes to Deep Neural Networks [0.5827521884806072]
大規模なデータセットでトレーニングされた大規模なニューラルネットワークは、マシンラーニングの主要なパラダイムになっています。
この論文は、モデル不確実性を持つニューラルネットワークを装備するためのスケーラブルな手法を開発する。
論文 参考訳(メタデータ) (2024-04-29T23:38:58Z) - Hyper-Reduced Autoencoders for Efficient and Accurate Nonlinear Model
Reductions [1.0499611180329804]
射影に基づくモデル順序の減少は、ゆっくりと減衰するコルモゴロフ n-幅の問題に対して最近提案されている。
これまで提案された手法の欠点は、高忠実度ソリューションスナップショット上でネットワークをトレーニングする際の潜在的に高い計算コストである。
我々は、高忠実度ソリューションスナップショットのサブサンプルバージョンのみにニューラルネットワークをトレーニングすることで、この欠点を克服する新しい手法を提案し、分析する。
論文 参考訳(メタデータ) (2023-03-16T20:18:33Z) - Neural Additive Models for Location Scale and Shape: A Framework for
Interpretable Neural Regression Beyond the Mean [1.0923877073891446]
ディープニューラルネットワーク(DNN)は、様々なタスクで非常に効果的であることが証明されている。
この成功にもかかわらず、DNNの内部構造はしばしば透明ではない。
この解釈可能性の欠如は、本質的に解釈可能なニューラルネットワークの研究の増加につながった。
論文 参考訳(メタデータ) (2023-01-27T17:06:13Z) - NCTV: Neural Clamping Toolkit and Visualization for Neural Network
Calibration [66.22668336495175]
ニューラルネットワークのキャリブレーションに対する考慮の欠如は、人間から信頼を得ることはないだろう。
我々はNeural Clamping Toolkitを紹介した。これは開発者が最先端のモデルに依存しないキャリブレーションモデルを採用するのを支援するために設計された最初のオープンソースフレームワークである。
論文 参考訳(メタデータ) (2022-11-29T15:03:05Z) - Neural Clamping: Joint Input Perturbation and Temperature Scaling for Neural Network Calibration [62.4971588282174]
我々はニューラルクランプ法と呼ばれる新しい後処理キャリブレーション法を提案する。
実験の結果,Neural Clampingは最先端の処理後のキャリブレーション法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-23T14:18:39Z) - Go Beyond Multiple Instance Neural Networks: Deep-learning Models based
on Local Pattern Aggregation [0.0]
畳み込みニューラルネットワーク(CNN)は、臨床心電図(ECG)と話者非依存音声の処理においてブレークスルーをもたらした。
本稿では,局所的なパターン集約に基づくディープラーニングモデルを提案する。
LPANetと呼ばれる新しいネットワーク構造には、トリミングと集約操作が組み込まれている。
論文 参考訳(メタデータ) (2022-05-28T13:18:18Z) - EINNs: Epidemiologically-Informed Neural Networks [75.34199997857341]
本稿では,疫病予測のための新しい物理インフォームドニューラルネットワークEINNを紹介する。
メカニスティックモデルによって提供される理論的柔軟性と、AIモデルによって提供されるデータ駆動表現性の両方を活用する方法について検討する。
論文 参考訳(メタデータ) (2022-02-21T18:59:03Z) - An alternative approach to train neural networks using monotone
variational inequality [22.320632565424745]
本稿では,モノトーンベクトル場を用いたニューラルネットワークトレーニングの代替手法を提案する。
我々のアプローチは、事前訓練されたニューラルネットワークのより効率的な微調整に利用できる。
論文 参考訳(メタデータ) (2022-02-17T19:24:20Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。