論文の概要: Probing Language Models from A Human Behavioral Perspective
- arxiv url: http://arxiv.org/abs/2310.05216v1
- Date: Sun, 8 Oct 2023 16:16:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 09:09:59.676745
- Title: Probing Language Models from A Human Behavioral Perspective
- Title(参考訳): 人間の行動からみた言語モデルの提案
- Authors: Xintong Wang, Xiaoyu Li, Xingshan Li, and Chris Biemann
- Abstract要約: 大規模言語モデル(LLM)は、現代のNLPにおいて支配的な基礎モデルとして登場した。
フィードフォワードネットワークやマルチヘッド・セルフアテンションなどの予測プロセスと内部メカニズムの理解は、いまだに未解明のままである。
- 参考スコア(独自算出の注目度): 24.109080140701188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have emerged as dominant foundational models in
modern NLP. However, the understanding of their prediction process and internal
mechanisms, such as feed-forward networks and multi-head self-attention,
remains largely unexplored. In this study, we probe LLMs from a human
behavioral perspective, correlating values from LLMs with eye-tracking
measures, which are widely recognized as meaningful indicators of reading
patterns. Our findings reveal that LLMs exhibit a prediction pattern distinct
from that of RNN-based LMs. Moreover, with the escalation of FFN layers, the
capacity for memorization and linguistic knowledge encoding also surges until
it peaks, subsequently pivoting to focus on comprehension capacity. The
functions of self-attention are distributed across multiple heads. Lastly, we
scrutinize the gate mechanisms, finding that they control the flow of
information, with some gates promoting, while others eliminating information.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現代のNLPにおいて支配的な基礎モデルとして登場した。
しかし、フィードフォワードネットワークやマルチヘッド自己注意といった予測プロセスや内部メカニズムの理解はいまだに未解明のままである。
本研究では,人間の行動的観点からLLMを探索し,LLMの値と視線追跡の指標との関連性を検討した。
その結果,LLMはRNNベースのLMとは異なる予測パターンを示すことがわかった。
さらに、FFN層の拡大に伴い、記憶能力と言語知識の符号化能力もピークまで上昇し、その後、理解能力に焦点をあてる。
自己注意の機能は複数の頭部に分散する。
最後に、ゲート機構を精査し、情報の流れを制御し、一部のゲートを推進し、他のゲートは情報を排除する。
関連論文リスト
- CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Identifying Semantic Induction Heads to Understand In-Context Learning [98.43943823238907]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - Contextual Feature Extraction Hierarchies Converge in Large Language
Models and the Brain [12.92793034617015]
大規模言語モデル(LLM)がベンチマークタスクで高いパフォーマンスを達成するにつれ、より脳に近いものになることを示す。
また、モデルの性能と脳の類似性を改善する上で、文脈情報の重要性を示す。
論文 参考訳(メタデータ) (2024-01-31T08:48:35Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Large Language Models for Spatial Trajectory Patterns Mining [9.70298494476926]
大型言語モデル(LLM)は、人間に似た方法で推論する能力を示した。
このことは、人間の移動における時間的パターンを解析する大きな可能性を示唆している。
我々の研究は、人間の空間的軌跡解析のためのLSMの強度と限界についての洞察を提供する。
論文 参考訳(メタデータ) (2023-10-07T23:21:29Z) - Deception Abilities Emerged in Large Language Models [0.0]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を備えた人工知能(AI)システムの最前線にある。
本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。
我々は、最先端のLLMが他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行う。
論文 参考訳(メタデータ) (2023-07-31T09:27:01Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。