論文の概要: Language models and brains align due to more than next-word prediction and word-level information
- arxiv url: http://arxiv.org/abs/2212.00596v2
- Date: Thu, 03 Oct 2024 11:42:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-05 03:34:15.822607
- Title: Language models and brains align due to more than next-word prediction and word-level information
- Title(参考訳): 単語予測と単語レベルの情報による言語モデルと脳の整合性
- Authors: Gabriele Merlin, Mariya Toneva,
- Abstract要約: 事前訓練された言語モデルは、言語を解釈する人々の脳記録を著しく予測することが示されている。
最近の研究は、次の単語の予測がこのアライメントに寄与する重要なメカニズムであることを示唆している。
脳記録との整合性の改善は,次の単語の予測や単語レベルの情報の改善が原因であることが示唆された。
- 参考スコア(独自算出の注目度): 4.652236080354487
- License:
- Abstract: Pretrained language models have been shown to significantly predict brain recordings of people comprehending language. Recent work suggests that the prediction of the next word is a key mechanism that contributes to this alignment. What is not yet understood is whether prediction of the next word is necessary for this observed alignment or simply sufficient, and whether there are other shared mechanisms or information that are similarly important. In this work, we take a step towards understanding the reasons for brain alignment via two simple perturbations in popular pretrained language models. These perturbations help us design contrasts that can control for different types of information. By contrasting the brain alignment of these differently perturbed models, we show that improvements in alignment with brain recordings are due to more than improvements in next-word prediction and word-level information.
- Abstract(参考訳): 事前訓練された言語モデルは、言語を解釈する人々の脳の記録を著しく予測することが示されている。
最近の研究は、次の単語の予測がこのアライメントに寄与する重要なメカニズムであることを示唆している。
まだ理解されていないのは、この観測されたアライメントに次の単語の予測が必要なのか、あるいは単に十分なのか、また、同様の重要な共有メカニズムや情報が存在するかどうかである。
本研究は、一般的な事前学習言語モデルにおける2つの単純な摂動を通して、脳のアライメントの理由を理解するための一歩を踏み出したものである。
これらの摂動は、異なる種類の情報を制御するコントラストを設計するのに役立ちます。
これらの異なる摂動モデルの脳のアライメントと対比することにより、脳の記録とのアライメントの改善は、次の単語の予測と単語レベルの情報の改善によるものであることを示す。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Causal Graph in Language Model Rediscovers Cortical Hierarchy in Human
Narrative Processing [0.0]
これまでの研究では、言語モデルの特徴がfMRI脳活動にマッピングできることが示されている。
これは、言語モデルにおける情報処理と人間の脳の間に共通点があるのだろうか?
言語モデルにおける情報フローパターンを推定するために,異なる層間の因果関係について検討した。
論文 参考訳(メタデータ) (2023-11-17T10:09:12Z) - Code-Switching with Word Senses for Pretraining in Neural Machine
Translation [107.23743153715799]
ニューラルネットワーク翻訳のための単語センス事前学習(WSP-NMT)について紹介する。
WSP-NMTは、知識ベースからの単語感覚情報を活用した多言語NMTモデルの事前学習のためのエンドツーエンドアプローチである。
実験の結果,全体の翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-21T16:13:01Z) - Humans and language models diverge when predicting repeating text [52.03471802608112]
我々は,人間とLMのパフォーマンスが分岐するシナリオを提示する。
人間とGPT-2 LMの予測はテキストスパンの最初のプレゼンテーションで強く一致しているが、メモリが役割を担い始めると、その性能は急速にバラバラになる。
このシナリオが,LMを人間の行動に近づける上で,今後の作業に拍車をかけることを期待しています。
論文 参考訳(メタデータ) (2023-10-10T08:24:28Z) - Why can neural language models solve next-word prediction? A
mathematical perspective [53.807657273043446]
本研究では,英語文の実例をモデル化するための形式言語群について検討する。
我々の証明は、ニューラルネットワークモデルにおける埋め込み層と完全に接続されたコンポーネントの異なる役割を強調します。
論文 参考訳(メタデータ) (2023-06-20T10:41:23Z) - Word class representations spontaneously emerge in a deep neural network
trained on next word prediction [7.240611820374677]
人間はどのように言語を学ぶのか、そして、最初の言語は全く学べるのか?
これらの基本的な疑問はいまだに熱心に議論されている。
特に、次の単語を予測するために、人工的な深層ニューラルネットワークを訓練する。
その結果,9ワード入力シーケンスの内部表現は10ワードの単語クラスに従ってクラスタ化され,出力として予測されることがわかった。
論文 参考訳(メタデータ) (2023-02-15T11:02:50Z) - Collateral facilitation in humans and language models [0.6091702876917281]
人間は、非常に異常な単語に対して、同様の処理の利点を示す。
本稿では、人間の言語理解と言語モデルによる予測の両方を理解することの意味について論じる。
論文 参考訳(メタデータ) (2022-11-09T21:08:08Z) - Long-range and hierarchical language predictions in brains and
algorithms [82.81964713263483]
深層言語アルゴリズムは隣接した単語の予測に最適化されているが、人間の脳は長距離で階層的な予測を行うように調整されている。
本研究は、予測符号化理論を強化し、自然言語処理における長距離および階層的予測の重要な役割を示唆する。
論文 参考訳(メタデータ) (2021-11-28T20:26:07Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。