論文の概要: Meanings and Feelings of Large Language Models: Observability of Latent States in Generative AI
- arxiv url: http://arxiv.org/abs/2405.14061v1
- Date: Wed, 22 May 2024 23:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 19:34:41.571920
- Title: Meanings and Feelings of Large Language Models: Observability of Latent States in Generative AI
- Title(参考訳): 大規模言語モデルの意味とフィーリング:ジェネレーティブAIにおける潜在状態の可観測性
- Authors: Tian Yu Liu, Stefano Soatto, Matteo Marchi, Pratik Chaudhari, Paulo Tabuada,
- Abstract要約: アメリカ心理学会(APA)によると、現在のLarge Language Models(LLM)は「フィーリング」ができない。
我々の分析は、モデルがユーザに見えない非自明な計算を実行できるようにする可能性のある設計に光を当てている。
- 参考スコア(独自算出の注目度): 65.04274914674771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the question of whether Large Language Models (LLMs), viewed as dynamical systems with state evolving in the embedding space of symbolic tokens, are observable. That is, whether there exist multiple 'mental' state trajectories that yield the same sequence of generated tokens, or sequences that belong to the same Nerode equivalence class ('meaning'). If not observable, mental state trajectories ('experiences') evoked by an input ('perception') or by feedback from the model's own state ('thoughts') could remain self-contained and evolve unbeknown to the user while being potentially accessible to the model provider. Such "self-contained experiences evoked by perception or thought" are akin to what the American Psychological Association (APA) defines as 'feelings'. Beyond the lexical curiosity, we show that current LLMs implemented by autoregressive Transformers cannot have 'feelings' according to this definition: The set of state trajectories indistinguishable from the tokenized output is a singleton. But if there are 'system prompts' not visible to the user, then the set of indistinguishable trajectories becomes non-trivial, and there can be multiple state trajectories that yield the same verbalized output. We prove these claims analytically, and show examples of modifications to standard LLMs that engender such 'feelings.' Our analysis sheds light on possible designs that would enable a model to perform non-trivial computation that is not visible to the user, as well as on controls that the provider of services using the model could take to prevent unintended behavior.
- Abstract(参考訳): シンボルトークンの埋め込み空間で状態が進化する動的システムと見なされるLarge Language Models (LLMs) が観測可能であるかどうかを問う。
すなわち、生成されたトークンの同じシーケンスを生成する複数の「メンタル」状態軌跡が存在するか、同じNerode同値類に属するシーケンス(「意味」)があるかである。
もし観察不可能でなければ、入力(「知覚」)やモデル自身の状態(「思考」)からのフィードバックによって引き起こされる精神状態軌跡(「経験」)は、モデル提供者に対して潜在的にアクセス可能でありながら、自己完結したまま進化しうる。
このような「知覚や思考によって誘発される自己完結した経験」は、アメリカ心理学会(APA)が定義する「フィーリング」に類似している。
語彙的好奇性以外にも、自己回帰変換器によって実装されている現在のLLMは、この定義に従って「フィーリング」を持たないことを示す: トークン化された出力とは区別できない状態軌跡の集合はシングルトンである。
しかし、ユーザが見えない「システムプロンプト」がある場合、区別不能なトラジェクトリのセットは非自明になり、同じ言語化された出力を生成する複数の状態トラジェクトリが存在する可能性がある。
これらの主張を解析的に証明し、そのような「フィーリング」を施した標準LLMの修正例を示す。
我々の分析では、モデルがユーザに見えない非自明な計算を実行できるようにする可能性のある設計と、モデルを使用するサービスのプロバイダが意図しない振る舞いを防止できる制御に光を当てています。
関連論文リスト
- States Hidden in Hidden States: LLMs Emerge Discrete State Representations Implicitly [72.24742240125369]
本稿では,チェーン・オブ・ステップ・バイ・ステップの解に頼らずに,拡張された計算列を実行する本質的な能力を明らかにする。
注目すべきは、最も先進的なモデルでは、2桁の加算結果を直接出力できることだ。
論文 参考訳(メタデータ) (2024-07-16T06:27:22Z) - Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - Why Can GPT Learn In-Context? Language Models Implicitly Perform
Gradient Descent as Meta-Optimizers [93.9369467909176]
メタ最適化として言語モデルを説明し、文脈内学習を暗黙の微調整として理解する。
テキスト内学習は、複数の視点からの明示的な微調整と同様の振る舞いを示す。
バニラに対するパフォーマンスの向上は、別の観点からの理解をさらに後押しします。
論文 参考訳(メタデータ) (2022-12-20T18:58:48Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z) - You should evaluate your language model on marginal likelihood
overtokenisations [5.824498637088864]
言語モデルはトークン化よりも限界的な可能性に基づいて評価されるべきである、と我々は主張する。
我々は,英語とドイツ語の事前学習モデルについて,最良語化と限界語化の両面で評価した。
論文 参考訳(メタデータ) (2021-09-06T15:37:02Z) - Provable Limitations of Acquiring Meaning from Ungrounded Form: What
will Future Language Models Understand? [87.20342701232869]
未知のシステムが意味を習得する能力について検討する。
アサーションによってシステムが等価性のような意味関係を保存する表現をエミュレートできるかどうか検討する。
言語内のすべての表現が参照的に透明であれば,アサーションによってセマンティックエミュレーションが可能になる。
しかし、言語が変数バインディングのような非透過的なパターンを使用する場合、エミュレーションは計算不能な問題になる可能性がある。
論文 参考訳(メタデータ) (2021-04-22T01:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。