論文の概要: A Causal World Model Underlying Next Token Prediction: Exploring GPT in a Controlled Environment
- arxiv url: http://arxiv.org/abs/2412.07446v3
- Date: Fri, 02 May 2025 11:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 13:22:23.326459
- Title: A Causal World Model Underlying Next Token Prediction: Exploring GPT in a Controlled Environment
- Title(参考訳): 次トーケン予測に基づく因果世界モデル:制御環境におけるGPTの探索
- Authors: Raanan Y. Rohekar, Yaniv Gurwicz, Sungduk Yu, Estelle Aflalo, Vasudev Lal,
- Abstract要約: 生成事前学習型トランスフォーマー(GPT)モデルは、次のトークンを予測するためにのみ訓練され、シーケンスが一度に1つのトークンを生成する世界モデルから暗黙的に学習される。
GPTは、勝利を意図してプレイされる現実世界のゲームで事前訓練され、ランダムな法的動きのシーケンスからなる分配外合成データでテストされる。
その結果、GPTモデルは、因果構造が高信頼の注意機構に符号化された分布外シーケンスに対して、法的な次の動きを生じさせる可能性が示唆された。
- 参考スコア(独自算出の注目度): 5.156443267442059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Do generative pre-trained transformer (GPT) models, trained only to predict the next token, implicitly learn a world model from which a sequence is generated one token at a time? We address this question by deriving a causal interpretation of the attention mechanism in GPT, and suggesting a causal world model that arises from this interpretation. Furthermore, we propose that GPT models, at inference time, can be utilized for zero-shot causal structure learning for input sequences and present a confidence score. Empirical evaluation is conducted in a controlled environment using the setup and rules of the Othello and Chess strategy games. A GPT, pre-trained on real-world games played with the intention of winning, is tested on out-of-distribution synthetic data consisting of sequences of random legal moves. We find that the GPT model is likely to generate legal next moves for out-of-distribution sequences for which a causal structure is encoded in the attention mechanism with high confidence. In cases for which the GPT model generates illegal moves it also fails to capture any causal structure.
- Abstract(参考訳): 生成事前学習型トランスフォーマー(GPT)モデルは、次のトークンを予測するためにのみ訓練され、シーケンスが一度に1つのトークンを生成する世界モデルから暗黙的に学習されるか?
本稿では,GPTにおける注意機構の因果的解釈を導出し,この解釈から生じる因果的世界モデルを提案する。
さらに,GPTモデルを用いて入力シーケンスのゼロショット因果構造学習を行い,信頼度スコアを提示する手法を提案する。
OthelloとChessの戦略ゲームの設定とルールを用いて,制御された環境で実証評価を行う。
GPTは、勝利を意図してプレイされる現実世界のゲームで事前訓練され、ランダムな法的動きのシーケンスからなる分配外合成データでテストされる。
その結果、GPTモデルは、因果構造が高信頼の注意機構に符号化された分布外シーケンスに対して、法的な次の動きを生じさせる可能性が示唆された。
GPTモデルが違法な動作を発生させる場合、因果構造を捕捉できない。
関連論文リスト
- ROBAD: Robust Adversary-aware Local-Global Attended Bad Actor Detection Sequential Model [21.007806717655146]
ROBADは、ユーザ投稿のシーケンスを使用して、ユーザ埋め込みを生成して、悪いアクターを検出する。
YelpとWikipediaの実験によると、ROBADは最先端の敵対的攻撃で悪役を効果的に検出できる。
論文 参考訳(メタデータ) (2025-07-20T18:03:44Z) - Adversarial Manipulation of Reasoning Models using Internal Representations [1.024113475677323]
モデルが拒否するか否かを予測するCoTトークン生成において,活性化空間における線形方向を同定する。
我々は、CoTトークンのアクティベーションのみに介入することで最終的な出力を制御することができ、この方向をプロンプトベースの攻撃に組み込むことで、成功率を向上させることを示す。
以上の結果から,このチェーン・オブ・シンドローム自体が,推論モデルにおける敵対的操作の新たなターゲットとなる可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-03T20:51:32Z) - Selective Temporal Knowledge Graph Reasoning [70.11788354442218]
時間的知識グラフ(TKG)は、与えられた歴史的事実に基づいて将来の事実を予測することを目的としている。
既存のTKG推論モデルは、不確実な予測を控えることができない。
本稿では,既存のモデルが無差別な予測ではなく選択的に行うのに役立つ,TKG推論の棄却機構を提案する。
論文 参考訳(メタデータ) (2024-04-02T06:56:21Z) - Emergent World Models and Latent Variable Estimation in Chess-Playing Language Models [0.0]
我々は,Othelloゲーム上でGPTモデルをトレーニングし,ボード状態の内部表現を学習した。
この作業をチェスのより複雑な領域に拡張し、実際のゲームでトレーニングし、モデルの内部表現を調査します。
Li et al. の以前の合成データセットアプローチとは異なり、我々の分析では、このモデルがプレイヤースキルのような潜伏変数を推定し、次のキャラクタをより正確に予測する方法も学んでいる。
論文 参考訳(メタデータ) (2024-03-21T18:53:23Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Learning and Leveraging Verifiers to Improve Planning Capabilities of
Pre-trained Language Models [20.13307800821161]
得られた計画の事前条件に違反するため,微調整されたベースラインの性能は依然として劣っていることを実証的に実証した。
微調整LDMの計画能力を向上させるため,特定の状態において動作が有効か無効かを分類できる検証器を訓練する。
生成器と検証器から多種多様なサンプリングを行うことで、Blocksworldドメインでの成功率が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-26T16:36:55Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Causally Disentangled Generative Variational AutoEncoder [16.82544099843568]
変分オートエンコーダ(VAE)のための教師付き学習手法を提案する。
この手法により因果不整合表現を学習し、同時に因果不整合結果を生成することができる。
これをCausally Disentangled Generation(CDG)と呼ぶ。
論文 参考訳(メタデータ) (2023-02-23T01:57:09Z) - Debiased Fine-Tuning for Vision-language Models by Prompt Regularization [50.41984119504716]
本稿では,Prompt Regularization(ProReg)と呼ばれる下流タスクにおける大規模視覚事前訓練モデルの微調整のための新しいパラダイムを提案する。
ProRegは、事前訓練されたモデルに微調整を正規化するよう促すことで予測を使用する。
本稿では,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。
論文 参考訳(メタデータ) (2023-01-29T11:53:55Z) - Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task [75.35278593566068]
言語モデルは驚くべき範囲の能力を示しているが、その明らかな能力の源泉は不明である。
これらのネットワークは単に表面統計の集合を記憶しているだけなのか、あるいは、彼らが見るシーケンスを生成するプロセスの内部表現に依存しているのだろうか?
簡単なボードゲームOthelloにおける法的な動きを予測するタスクに,GPTモデルの変種を適用して検討する。
論文 参考訳(メタデータ) (2022-10-24T16:29:55Z) - Scoring Rules for Performative Binary Prediction [2.111790330664657]
理論的および数値的な結果から、適切なスコアリングルールは、専門家に彼らの予測で世界を操作させるインセンティブを与えることができることを示す。
また、この問題を回避するための単純なスコアリングルールも構築する。
論文 参考訳(メタデータ) (2022-07-05T08:31:24Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial
Robustness? [121.57551065856164]
本稿では,情報理論の観点から,新しい対角的微調整法としてロバスト・インフォーマティブ・ファインチューニング(RIFT)を提案する。
RIFTは、微調整プロセス全体を通して、事前訓練されたモデルから学んだ特徴を維持するために客観的モデルを奨励する。
実験の結果, RIFTは2つのNLPタスクにおいて, 最先端のタスクを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-22T05:04:41Z) - Delayed Propagation Transformer: A Universal Computation Engine towards
Practical Control in Cyber-Physical Systems [68.75717332928205]
マルチエージェント制御はサイバー物理システムにおいて中心的なテーマである。
本稿では,CPSのグローバルモデリングを専門とするトランスフォーマーモデルを提案する。
物理的な制約帰納バイアスが設計に組み込まれているため、DePTは幅広い種類のマルチエージェントシステムにプラグアンドプレイする準備ができています。
論文 参考訳(メタデータ) (2021-10-29T17:20:53Z) - Kronecker Decomposition for GPT Compression [8.60086973058282]
GPTは自動回帰トランスフォーマーベースの事前学習言語モデルであり、自然言語処理(NLP)分野において多くの注目を集めている。
GPTの性能は優れているが、GPTはこのモデルを限られた計算能力やメモリを持つデバイスに展開することを非常に禁じることができる。
本研究では, GPT-22モデルの線形写像を圧縮するためにKronecker分解を用いる。
論文 参考訳(メタデータ) (2021-10-15T15:28:39Z) - CC-Cert: A Probabilistic Approach to Certify General Robustness of
Neural Networks [58.29502185344086]
安全クリティカルな機械学習アプリケーションでは、モデルを敵の攻撃から守ることが不可欠である。
意味的に意味のある入力変換に対して、ディープラーニングモデルの証明可能な保証を提供することが重要である。
我々はChernoff-Cramer境界に基づく新しい普遍確率的証明手法を提案する。
論文 参考訳(メタデータ) (2021-09-22T12:46:04Z) - Adversarial Example Games [51.92698856933169]
Adrial Example Games (AEG) は、敵の例の製作をモデル化するフレームワークである。
AEGは、ある仮説クラスからジェネレータとアバーサを反対に訓練することで、敵の例を設計する新しい方法を提供する。
MNIST と CIFAR-10 データセットに対する AEG の有効性を示す。
論文 参考訳(メタデータ) (2020-07-01T19:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。