論文の概要: Analyzing Narrative Processing in Large Language Models (LLMs): Using GPT4 to test BERT
- arxiv url: http://arxiv.org/abs/2405.02024v1
- Date: Fri, 3 May 2024 11:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 13:05:54.620782
- Title: Analyzing Narrative Processing in Large Language Models (LLMs): Using GPT4 to test BERT
- Title(参考訳): 大規模言語モデル(LLM)におけるナラティブ処理の分析 : GPT4を用いてBERTをテストする
- Authors: Patrick Krauss, Jannik Hösch, Claus Metzner, Andreas Maier, Peter Uhrig, Achim Schilling,
- Abstract要約: 言語を介して複雑な情報を伝達し受信する能力は、人間に特有のものである。
我々は,ニューラルネットワークにおける言語処理の基本メカニズムを理解するためのモデルとして,大規模言語モデルを使用するための最初のステップを実行した。
- 参考スコア(独自算出の注目度): 2.8115690524924357
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The ability to transmit and receive complex information via language is unique to humans and is the basis of traditions, culture and versatile social interactions. Through the disruptive introduction of transformer based large language models (LLMs) humans are not the only entity to "understand" and produce language any more. In the present study, we have performed the first steps to use LLMs as a model to understand fundamental mechanisms of language processing in neural networks, in order to make predictions and generate hypotheses on how the human brain does language processing. Thus, we have used ChatGPT to generate seven different stylistic variations of ten different narratives (Aesop's fables). We used these stories as input for the open source LLM BERT and have analyzed the activation patterns of the hidden units of BERT using multi-dimensional scaling and cluster analysis. We found that the activation vectors of the hidden units cluster according to stylistic variations in earlier layers of BERT (1) than narrative content (4-5). Despite the fact that BERT consists of 12 identical building blocks that are stacked and trained on large text corpora, the different layers perform different tasks. This is a very useful model of the human brain, where self-similar structures, i.e. different areas of the cerebral cortex, can have different functions and are therefore well suited to processing language in a very efficient way. The proposed approach has the potential to open the black box of LLMs on the one hand, and might be a further step to unravel the neural processes underlying human language processing and cognition in general.
- Abstract(参考訳): 言語を介して複雑な情報を伝達し受信する能力は人間に特有のものであり、伝統、文化、多目的な社会的相互作用の基礎となっている。
トランスフォーマーベースの大規模言語モデル(LLM)の破壊的な導入によって、人間はもはや「理解」し、言語を生産する唯一の存在ではない。
本研究では,LLMをニューラルネットワークにおける言語処理の基本的なメカニズムを理解するためのモデルとして,人間の脳が言語処理を行う方法についての予測と仮説を生成するための最初のステップを実行する。
そこで我々はChatGPTを用いて,10の異なる物語(Aesop's fables)の7つの異なるスタイルのバリエーションを生成する。
我々は、これらのストーリーをオープンソースのLLM BERTの入力として使用し、多次元スケーリングとクラスタ分析を用いて、BERTの隠れユニットの活性化パターンを分析した。
その結果,隠れユニットクラスタのアクティベーションベクトルは,物語内容(4-5。
BERTは、大きなテキストコーパスで積み重ねてトレーニングされた12の同一のビルディングブロックで構成されているにもかかわらず、異なるレイヤが異なるタスクを実行する。
これは人間の脳の非常に有用なモデルであり、自己相似構造、すなわち大脳皮質の異なる領域は異なる機能を持ち、そのため非常に効率的な言語処理に適している。
提案されたアプローチは、LSMのブラックボックスを片手に開く可能性があり、人間の言語処理と認知の根底にある神経過程を解き明かすためのさらなるステップかもしれない。
関連論文リスト
- Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。
本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-21T12:54:03Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Causal Graph in Language Model Rediscovers Cortical Hierarchy in Human
Narrative Processing [0.0]
これまでの研究では、言語モデルの特徴がfMRI脳活動にマッピングできることが示されている。
これは、言語モデルにおける情報処理と人間の脳の間に共通点があるのだろうか?
言語モデルにおける情報フローパターンを推定するために,異なる層間の因果関係について検討した。
論文 参考訳(メタデータ) (2023-11-17T10:09:12Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - Divergences between Language Models and Human Brains [63.405788999891335]
最近の研究は、言語モデルの内部表現(LM)を用いて脳信号が効果的に予測できることを示唆している。
我々は、LMと人間が言語をどのように表現し、使用するかに明確な違いがあることを示します。
我々は、社会的・情緒的知性と身体的常識という、LMによってうまく捉えられていない2つの領域を識別する。
論文 参考訳(メタデータ) (2023-11-15T19:02:40Z) - Roles of Scaling and Instruction Tuning in Language Perception: Model
vs. Human Attention [58.817405319722596]
本研究は,複数の大規模言語モデル (LLM) を異なる大きさで自己意識的に比較し,言語知覚に対するスケーリングと指導指導の効果を評価する。
その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。
また、現在のLLMは、注目されているネイティブスピーカーよりも、常に非ネイティブに近づき、全てのモデルの準最適言語知覚が示唆されている。
論文 参考訳(メタデータ) (2023-10-29T17:16:40Z) - Unveiling Multilinguality in Transformer Models: Exploring Language
Specificity in Feed-Forward Networks [12.7259425362286]
多言語モデルがキー値記憶をどのように活用するかを検討する。
2つ以上の言語で訓練された自己回帰モデルに対して、すべてのニューロン(層全体)は全ての言語に等しく反応するのか?
その結果,ネットワークの入力や出力に最も近い層は,中間層に比べて言語固有の振る舞いを示す傾向があることがわかった。
論文 参考訳(メタデータ) (2023-10-24T06:45:00Z) - Explaining Interactions Between Text Spans [50.70253702800355]
入力の異なる部分からのトークンのスパンに対する推論は、自然言語理解に不可欠である。
NLUタスク2つのタスク(NLIとFC)に対する人間間相互作用の説明データセットであるSpanExを紹介する。
次に,複数の微調整された大言語モデルの決定過程を,スパン間の相互接続の観点から検討する。
論文 参考訳(メタデータ) (2023-10-20T13:52:37Z) - Is neural language acquisition similar to natural? A chronological
probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。
コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。
その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文 参考訳(メタデータ) (2022-07-01T17:24:11Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。