論文の概要: Neural Diversity Regularizes Hallucinations in Small Models
- arxiv url: http://arxiv.org/abs/2510.20690v1
- Date: Thu, 23 Oct 2025 16:03:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.321544
- Title: Neural Diversity Regularizes Hallucinations in Small Models
- Title(参考訳): ニューラルダイバーシティは小さなモデルで幻覚を規則化する
- Authors: Kushal Chakrabarti, Nirmal Balachundhar,
- Abstract要約: 固定パラメータとデータ予算における幻覚率を低減させる原理的なメカニズムとして神経多様性を提案する。
我々の結果は、ニューラルネットワークの多様性をパラメータとデータへのスケーリングの第3軸として強調し、固定予算での言語モデルの信頼性を改善しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models continue to hallucinate despite increases in parameters, compute, and data. We propose neural diversity -- decorrelated parallel representations -- as a principled mechanism that reduces hallucination rates at fixed parameter and data budgets. Inspired by portfolio theory, where uncorrelated assets reduce risk by $\sqrt{P}$, we prove hallucination probability is bounded by representational correlation: $P(H) \leq f(\sigma^2((1-\rho(P))/P + \rho(P)), \mu^2)$, which predicts that language models need an optimal amount of neurodiversity. To validate this, we introduce ND-LoRA (Neural Diversity Low-Rank Adaptation), combining parallel LoRA adapters with Barlow Twins regularization, and demonstrate that ND-LoRA reduces hallucinations by up to 25.6% (and 14.6% on average) without degrading general accuracy. Ablations show LoRA adapters and regularization act synergistically, causal interventions prove neurodiversity as the mediating factor and correlational analyses indicate scale: a 0.1% neural correlation increase is associated with a 3.8% hallucination increase. Finally, task-dependent optimality emerges: different tasks require different amounts of optimal neurodiversity. Together, our results highlight neural diversity as a third axis of scaling -- orthogonal to parameters and data -- to improve the reliability of language models at fixed budgets.
- Abstract(参考訳): パラメータ、計算、データの増加にもかかわらず、言語モデルは幻覚し続けている。
我々は、固定パラメータとデータ予算における幻覚率を減少させる原理的なメカニズムとして、神経多様性(非相関並列表現)を提案する。
非相関資産がリスクを$\sqrt{P}$で減少させるポートフォリオ理論に触発されて、幻覚確率は表現的相関によって有界であることが証明される:$P(H) \leq f(\sigma^2((1-\rho(P))/P + \rho(P)), \mu^2)$。
これを検証するために,ND-LoRA (Neural Diversity Low-Rank Adaptation)を導入し,並列LoRAアダプタとBarlow Twins正規化を組み合わせることで,一般的な精度を低下させることなく,幻覚を最大25.6%(平均14.6%)削減できることを示した。
アブレーションはLoRAアダプターと正規化の作用を相乗的に示し、因果的介入は仲介因子として神経多様性を証明し、相関分析はスケールを示している: 0.1%の神経相関増加は3.8%の幻覚の増加と関連している。
最後に、タスク依存の最適性が出現する: 異なるタスクは異なる量の最適な神経多様性を必要とする。
私たちの結果は、ニューラルネットワークの多様性を、パラメータとデータに直交するスケーリングの第3軸として強調し、固定予算での言語モデルの信頼性を改善しました。
関連論文リスト
- Towards Interpretable Hallucination Analysis and Mitigation in LVLMs via Contrastive Neuron Steering [60.23509717784518]
既存の緩和法は主に出力レベルの調整に重点を置いており、幻覚を引き起こす内部メカニズムはほとんど探索されていない。
クリーン入力とノイズ入力のコントラスト解析により画像特異的ニューロンを識別するコントラスト性ニューロンステアリング(CNS)を提案する。
CNSは摂動によって引き起こされる活性化を抑えつつ情報伝達ニューロンを選択的に増幅し、より堅牢でセマンティックな視覚表現を生み出す。
論文 参考訳(メタデータ) (2026-01-31T09:21:04Z) - Ground What You See: Hallucination-Resistant MLLMs via Caption Feedback, Diversity-Aware Sampling, and Conflict Regularization [38.469173375694076]
マルチモーダル大言語モデル(MLLM)における幻覚の根本原因を系統的に解析する。
1)不正確な初期記述が後続の推論を誤った前提に固定する連鎖的視覚推論の過度な信頼、(2)政策最適化中の探索の多様性が不十分で、過度に自信があるが誤ったアウトプットを発生させる要因、(3)トレーニングサンプル間の破壊的な衝突、NTKの類似性が誤関連や不安定なパラメータ更新を引き起こす要因である。
実験の結果,提案手法は幻覚率を著しく低減し,MLLMの推論精度を効果的に向上することが示された。
論文 参考訳(メタデータ) (2026-01-09T07:59:18Z) - The Hallucination Dilemma: Factuality-Aware Reinforcement Learning for Large Reasoning Models [63.98194996746229]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z) - Hallucination, Monofacts, and Miscalibration: An Empirical Investigation [2.3278261859840104]
大規模言語モデルにおける有能な事実は、モノファクトレートによって決定される統計的下界に従う。
古典的なn-gramモデルと微調整エンコーダ・デコーダ変換器におけるこの3方向関係に関する最初の実証的研究を示す。
論文 参考訳(メタデータ) (2025-02-11T18:46:00Z) - Hallucination Detox: Sensitivity Dropout (SenD) for Large Language Model Training [17.347067827911406]
トレーニングダイナミクスの不確かさと幻覚の出現との関係について検討する。
本稿では,学習中の幻覚のばらつきを軽減するための新しいトレーニングプロトコルであるSensitivity Dropout (SenD)を提案する。
SenDは、PythiaとMetaのLlamaモデルのテスト時の信頼性を最大17%向上し、Wikipedia、メディカル、法律、コーディングドメインの事実精度を向上させる。
論文 参考訳(メタデータ) (2024-10-20T18:18:23Z) - CeCNN: Copula-enhanced convolutional neural networks in joint prediction of refraction error and axial length based on ultra-widefield fundus images [6.787893694522311]
球面等価性(SE)測定と高ミオピア診断を共同で予測するために,CeCNN(Copula-enhanced Convolutional Neural Network)を提案する。
論文 参考訳(メタデータ) (2023-11-07T13:06:50Z) - Higher Order Gauge Equivariant CNNs on Riemannian Manifolds and
Applications [7.322121417864824]
我々はゲージ同変畳み込み(GEVNet)と呼ばれるゲージ同変畳み込みの高次一般化を導入する。
これにより、空間的に拡張された非線形相互作用を、大域的等距離と等値性を維持しながら、与えられた場内でモデル化することができる。
神経画像データ実験では、結果として生じる2部構造を用いて、拡散磁気共鳴画像(dMRI)からLewy Body Disease(DLB)、Alzheimer's Disease(AD)、Parkinson's Disease(PD)を自動判別する。
論文 参考訳(メタデータ) (2023-05-26T06:02:31Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - Neural Estimation of Statistical Divergences [24.78742908726579]
ニューラルネットワーク(NN)による経験的変動形態のパラメトリゼーションによる統計的発散推定の一手法
特に、近似と経験的推定という2つのエラー源の間には、根本的なトレードオフがある。
NN成長速度がわずかに異なる神経推定器は、最小値の最適値に近づき、パラメトリック収束率を対数因子まで達成できることを示す。
論文 参考訳(メタデータ) (2021-10-07T17:42:44Z) - Interpretable Additive Recurrent Neural Networks For Multivariate
Clinical Time Series [4.125698836261585]
本稿では,モデル内の変数間の関係を加法的に強制することで,モデルの複雑性と精度のバランスをとるInterpretable-RNN(I-RNN)を提案する。
I-RNNは、時間内に不均一にサンプリングされ、非同期に取得され、データが欠落している臨床時系列の特徴を特に捉えている。
本研究は,院内死亡率予測のためのPhysoronet 2012 ChallengeデータセットのI-RNNモデルと,集中治療室における血行動態の介入を予測するリアルな臨床診断支援タスクについて評価する。
論文 参考訳(メタデータ) (2021-09-15T22:30:19Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - Brain Image Synthesis with Unsupervised Multivariate Canonical
CSC$\ell_4$Net [122.8907826672382]
我々は,新しいCSC$ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。
論文 参考訳(メタデータ) (2021-03-22T05:19:40Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。