論文の概要: Causal World Representation in the GPT Model
- arxiv url: http://arxiv.org/abs/2412.07446v1
- Date: Tue, 10 Dec 2024 12:05:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:39:49.358371
- Title: Causal World Representation in the GPT Model
- Title(参考訳): GPTモデルにおける因果世界表現
- Authors: Raanan Y. Rohekar, Yaniv Gurwicz, Sungduk Yu, Vasudev Lal,
- Abstract要約: GPT(Generative Pre-trained Transformer)モデルは、実世界のゲームにおいて、勝利を意図してテストされる。
GPTモデルは、アテンション機構が高い信頼度で因果構造を符号化するシーケンスのゲーム規則に従う次の動作を生成する傾向がある。
一般に、GPTモデルがゲームルールに従わない動作を生成する場合、因果構造を捕捉できない。
- 参考スコア(独自算出の注目度): 4.629721760278161
- License:
- Abstract: Are generative pre-trained transformer (GPT) models only trained to predict the next token, or do they implicitly learn a world model from which a sequence is generated one token at a time? We examine this question by deriving a causal interpretation of the attention mechanism in GPT, and suggesting a causal world model that arises from this interpretation. Furthermore, we propose that GPT-models, at inference time, can be utilized for zero-shot causal structure learning for in-distribution sequences. Empirical evaluation is conducted in a controlled synthetic environment using the setup and rules of the Othello board game. A GPT, pre-trained on real-world games played with the intention of winning, is tested on synthetic data that only adheres to the game rules. We find that the GPT model tends to generate next moves that adhere to the game rules for sequences for which the attention mechanism encodes a causal structure with high confidence. In general, in cases for which the GPT model generates moves that do not adhere to the game rules, it also fails to capture any causal structure.
- Abstract(参考訳): 生成事前学習型トランスフォーマー(GPT)モデルは、次のトークンを予測するためにのみ訓練されているのか、それとも、シーケンスが一度に1つのトークンを生成する世界モデルから暗黙的に学習されているのか?
本稿では,GPTにおける注意機構の因果的解釈を導出し,この解釈から生じる因果的世界モデルを提案する。
さらに,GPTモデルを推論時にゼロショット因果構造学習に利用し,分布内配列を解析する手法を提案する。
オセロボードゲームの設定とルールを用いて,制御された合成環境下で実証評価を行う。
GPTは、ゲームルールにのみ準拠する合成データに基づいて、勝利を意図してプレイされる現実世界のゲームで事前訓練されたテストである。
GPTモデルは、アテンション機構が高い信頼度で因果構造を符号化するシーケンスのゲームルールに準拠する次の動作を生成する傾向がある。
一般に、GPTモデルがゲームルールに従わない動作を生成する場合、因果構造を捕捉できない。
関連論文リスト
- GAMformer: In-Context Learning for Generalized Additive Models [53.08263343627232]
本稿では,1つの前方パスにおけるGAMの形状関数を推定するために,文脈内学習を利用した最初の手法であるGAMformerを紹介する。
実験の結果,GAMformerは様々な分類ベンチマークにおいて,他の主要なGAMと同等に動作することがわかった。
論文 参考訳(メタデータ) (2024-10-06T17:28:20Z) - Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay [0.0]
我々は,言語タスク以外の幅広い問題に対して,最先端の大規模言語モデルの一般化を検証するためのベンチマークを開発する。
Tic-Tac-Toe、Connect Four、Battleshipといったよく知られた単純なゲームを使って、戦略能力と空間的推論をテストする。
その結果、GPTモデルはこれらのゲームでは性能が悪く、失う動きを予測できなかったり、正しくプレイしたり、空間的関係を認識できなかった。
論文 参考訳(メタデータ) (2024-07-12T14:17:26Z) - Emergent World Models and Latent Variable Estimation in Chess-Playing Language Models [0.0]
我々は,Othelloゲーム上でGPTモデルをトレーニングし,ボード状態の内部表現を学習した。
この作業をチェスのより複雑な領域に拡張し、実際のゲームでトレーニングし、モデルの内部表現を調査します。
Li et al. の以前の合成データセットアプローチとは異なり、我々の分析では、このモデルがプレイヤースキルのような潜伏変数を推定し、次のキャラクタをより正確に予測する方法も学んでいる。
論文 参考訳(メタデータ) (2024-03-21T18:53:23Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Causally Disentangled Generative Variational AutoEncoder [16.82544099843568]
変分オートエンコーダ(VAE)のための教師付き学習手法を提案する。
この手法により因果不整合表現を学習し、同時に因果不整合結果を生成することができる。
これをCausally Disentangled Generation(CDG)と呼ぶ。
論文 参考訳(メタデータ) (2023-02-23T01:57:09Z) - Debiased Fine-Tuning for Vision-language Models by Prompt Regularization [50.41984119504716]
本稿では,Prompt Regularization(ProReg)と呼ばれる下流タスクにおける大規模視覚事前訓練モデルの微調整のための新しいパラダイムを提案する。
ProRegは、事前訓練されたモデルに微調整を正規化するよう促すことで予測を使用する。
本稿では,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。
論文 参考訳(メタデータ) (2023-01-29T11:53:55Z) - Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task [75.35278593566068]
言語モデルは驚くべき範囲の能力を示しているが、その明らかな能力の源泉は不明である。
これらのネットワークは単に表面統計の集合を記憶しているだけなのか、あるいは、彼らが見るシーケンスを生成するプロセスの内部表現に依存しているのだろうか?
簡単なボードゲームOthelloにおける法的な動きを予測するタスクに,GPTモデルの変種を適用して検討する。
論文 参考訳(メタデータ) (2022-10-24T16:29:55Z) - Automatic Rule Induction for Efficient Semi-Supervised Learning [56.91428251227253]
半教師付き学習は、少量のラベル付きデータからNLPモデルを一般化できることを約束している。
事前訓練されたトランスモデルはブラックボックス相関エンジンとして機能し、説明が困難であり、時には信頼性に欠ける振る舞いをする。
本稿では,これらの課題に,簡易かつ汎用的なフレームワークであるAutomatic Rule Injection (ARI) を用いて対処することを提案する。
論文 参考訳(メタデータ) (2022-05-18T16:50:20Z) - Delayed Propagation Transformer: A Universal Computation Engine towards
Practical Control in Cyber-Physical Systems [68.75717332928205]
マルチエージェント制御はサイバー物理システムにおいて中心的なテーマである。
本稿では,CPSのグローバルモデリングを専門とするトランスフォーマーモデルを提案する。
物理的な制約帰納バイアスが設計に組み込まれているため、DePTは幅広い種類のマルチエージェントシステムにプラグアンドプレイする準備ができています。
論文 参考訳(メタデータ) (2021-10-29T17:20:53Z) - Kronecker Decomposition for GPT Compression [8.60086973058282]
GPTは自動回帰トランスフォーマーベースの事前学習言語モデルであり、自然言語処理(NLP)分野において多くの注目を集めている。
GPTの性能は優れているが、GPTはこのモデルを限られた計算能力やメモリを持つデバイスに展開することを非常に禁じることができる。
本研究では, GPT-22モデルの線形写像を圧縮するためにKronecker分解を用いる。
論文 参考訳(メタデータ) (2021-10-15T15:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。