論文の概要: Too Big to Fail: Larger Language Models are Disproportionately Resilient to Induction of Dementia-Related Linguistic Anomalies
- arxiv url: http://arxiv.org/abs/2406.02830v1
- Date: Wed, 5 Jun 2024 00:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 22:26:58.709846
- Title: Too Big to Fail: Larger Language Models are Disproportionately Resilient to Induction of Dementia-Related Linguistic Anomalies
- Title(参考訳): 大規模言語モデルは認知症関連言語異常の誘発に不均衡に耐性がある
- Authors: Changye Li, Zhecheng Sheng, Trevor Cohen, Serguei Pakhomov,
- Abstract要約: より大型のGPT-2モデルでは、マスキングによる劣化の程度を示すために、被マスキング/被マスキングを行うために、不均等に多くの注意ヘッドを必要とすることが示されている。
これらの結果から, トランスフォーマーモデルにおける注意機構は, 認知と脳保護の概念に類似している可能性が示唆された。
- 参考スコア(独自算出の注目度): 7.21603206617401
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As artificial neural networks grow in complexity, understanding their inner workings becomes increasingly challenging, which is particularly important in healthcare applications. The intrinsic evaluation metrics of autoregressive neural language models (NLMs), perplexity (PPL), can reflect how "surprised" an NLM model is at novel input. PPL has been widely used to understand the behavior of NLMs. Previous findings show that changes in PPL when masking attention layers in pre-trained transformer-based NLMs reflect linguistic anomalies associated with Alzheimer's disease dementia. Building upon this, we explore a novel bidirectional attention head ablation method that exhibits properties attributed to the concepts of cognitive and brain reserve in human brain studies, which postulate that people with more neurons in the brain and more efficient processing are more resilient to neurodegeneration. Our results show that larger GPT-2 models require a disproportionately larger share of attention heads to be masked/ablated to display degradation of similar magnitude to masking in smaller models. These results suggest that the attention mechanism in transformer models may present an analogue to the notions of cognitive and brain reserve and could potentially be used to model certain aspects of the progression of neurodegenerative disorders and aging.
- Abstract(参考訳): 人工ニューラルネットワークが複雑化するにつれて、その内部動作を理解することはますます難しくなり、医療応用において特に重要である。
自己回帰型ニューラルネットワークモデル(NLM)、パープレキシティ(PPL)の本質的な評価基準は、NLMモデルがいかに新しい入力であるかを反映することができる。
PPLはNLMの挙動を理解するために広く用いられている。
以上の結果より, アルツハイマー病認知症に伴う言語異常を反映し, 注意層をマスキングする場合のPPLの変化が示唆された。
そこで我々は,脳により多くのニューロンを持ち,より効率的な処理を行う人が神経変性に対してより耐性を持つことを仮定した,認知と脳保護の概念に起因した特性を示す,新しい双方向注意頭アブレーション法を提案する。
以上の結果から,より大型のGPT-2モデルでは,より小型のモデルではマスキングに類似した大きさの劣化を示すために,マスキング/アタッチメントの差が大きいことが示唆された。
これらの結果は、トランスフォーマーモデルにおける注意機構が認知と脳保護の概念に類似している可能性を示し、神経変性疾患や老化の進行の特定の側面をモデル化する可能性があることを示唆している。
関連論文リスト
- Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた
最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。
本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。
このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文 参考訳(メタデータ) (2024-10-25T13:15:17Z) - Contrastive Learning in Memristor-based Neuromorphic Systems [55.11642177631929]
スパイクニューラルネットワークは、現代のバックプロパゲーションによって訓練されたディープネットワークに直面する重要な制約の多くを横取りする、ニューロンベースのモデルの重要なファミリーとなっている。
本研究では,前向き・後向き学習のニューロモルフィック形式であるコントラッシブ・シグナル依存型塑性(CSDP)の概念実証を設計し,検討する。
論文 参考訳(メタデータ) (2024-09-17T04:48:45Z) - Large Language Model-based FMRI Encoding of Language Functions for Subjects with Neurocognitive Disorder [53.575426835313536]
LLMを用いたfMRIエンコーディングと脳のスコアを用いた高齢者の言語関連機能変化について検討する。
脳のスコアと認知スコアの相関関係を脳全体のROIと言語関連ROIの両方で分析した。
以上の結果から,認知能力の向上は,中側頭回に有意な相関がみられた。
論文 参考訳(メタデータ) (2024-07-15T01:09:08Z) - Coupling Artificial Neurons in BERT and Biological Neurons in the Human
Brain [9.916033214833407]
本研究は,トランスフォーマーに基づくNLPモデルと言語に対する神経活動をリンクする,新しい,汎用的で効果的なフレームワークを提案する。
実験の結果,(1)ANsとBNsの活性化は有意に同期し,(2)ANsは意味のある言語/意味情報を持ち,BNシグネチャにアンカーし,(3)アンカーされたBNは神経言語学的文脈で解釈可能であることがわかった。
論文 参考訳(メタデータ) (2023-03-27T01:41:48Z) - A Comprehensive Comparison of Neural Networks as Cognitive Models of
Inflection [20.977461918631928]
未知単語の屈折に対する人間の判断とニューラルネットワークの確率の相関について検討する。
我々はトランスフォーマーがLSTMよりも人間の行動のより良い説明であることを示す。
論文 参考訳(メタデータ) (2022-10-22T00:59:40Z) - Adapting Brain-Like Neural Networks for Modeling Cortical Visual
Prostheses [68.96380145211093]
皮質補綴は視覚野に移植された装置で、電気的にニューロンを刺激することで失った視力を回復しようとする。
現在、これらのデバイスが提供する視覚は限られており、刺激による視覚知覚を正確に予測することはオープンな課題である。
我々は、視覚システムの有望なモデルとして登場した「脳様」畳み込みニューラルネットワーク(CNN)を活用することで、この問題に対処することを提案する。
論文 参考訳(メタデータ) (2022-09-27T17:33:19Z) - Neural Language Models are not Born Equal to Fit Brain Data, but
Training Helps [75.84770193489639]
音声ブックを聴く被験者の機能的磁気共鳴イメージングの時間軸予測に及ぼすテスト損失,トレーニングコーパス,モデルアーキテクチャの影響について検討した。
各モデルの訓練されていないバージョンは、同じ単語をまたいだ脳反応の類似性を捉えることで、脳内のかなりの量のシグナルをすでに説明していることがわかりました。
ニューラル言語モデルを用いたヒューマン・ランゲージ・システムの説明を目的とした今後の研究の実践を提案する。
論文 参考訳(メタデータ) (2022-07-07T15:37:17Z) - Mesoscopic modeling of hidden spiking neurons [3.6868085124383616]
我々は粗粒度と平均場近似を用いて、ボトムアップ・ニューラルグラウンド付き潜在変数モデル(neuLVM)を導出する。
neuLVMは、繰り返し発生するマルチポピュレーションスパイクニューラルネットワーク(SNN)に明示的にマッピングできる
シンセティックスパイク列車では,数個の観察されたニューロンが,大きなSNNの効率的なモデル逆転を実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2022-05-26T17:04:39Z) - Learning by Active Forgetting for Neural Networks [36.47528616276579]
記憶と忘れのメカニズムは、人間の学習記憶システムにおいて、同じコインの2つの側面である。
現代の機械学習システムは、記憶を良くすることで、生涯にわたる学習能力を持つ機械を育むために取り組んできた。
本稿では,ニューラルネットワークを用いた能動的記憶機構による学習モデルを提案する。
論文 参考訳(メタデータ) (2021-11-21T14:55:03Z) - On-the-Fly Attention Modularization for Neural Generation [54.912042110885366]
生成したテキストは反復的であり,汎用的であり,自己矛盾であり,常識を欠いている。
本研究は,インダクティブバイアスを推論中に注入する簡易かつ効果的な手法である,オンザフライアテンション・モダナイゼーションを動機とする。
論文 参考訳(メタデータ) (2021-01-02T05:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。