論文の概要: Emergent world representations: Exploring a sequence model trained on a
synthetic task
- arxiv url: http://arxiv.org/abs/2210.13382v1
- Date: Mon, 24 Oct 2022 16:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:00:38.163438
- Title: Emergent world representations: Exploring a sequence model trained on a
synthetic task
- Title(参考訳): 創発的世界表現:合成タスクで訓練されたシーケンスモデルを探索する
- Authors: Kenneth Li, Aspen K. Hopkins, David Bau, Fernanda Vi\'egas, Hanspeter
Pfister, Martin Wattenberg
- Abstract要約: 言語モデルは驚くべき範囲の能力を示しているが、その明らかな能力の源泉は不明である。
これらのネットワークは単に表面統計の集合を記憶しているだけなのか、あるいは、彼らが見るシーケンスを生成するプロセスの内部表現に依存しているのだろうか?
簡単なボードゲームOthelloにおける法的な動きを予測するタスクに,GPTモデルの変種を適用して検討する。
- 参考スコア(独自算出の注目度): 79.114882426162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models show a surprising range of capabilities, but the source of
their apparent competence is unclear. Do these networks just memorize a
collection of surface statistics, or do they rely on internal representations
of the process that generates the sequences they see? We investigate this
question by applying a variant of the GPT model to the task of predicting legal
moves in a simple board game, Othello. Although the network has no a priori
knowledge of the game or its rules, we uncover evidence of an emergent
nonlinear internal representation of the board state. Interventional
experiments indicate this representation can be used to control the output of
the network and create "latent saliency maps" that can help explain predictions
in human terms.
- Abstract(参考訳): 言語モデルには驚くべき能力範囲があるが、その明らかに能力の源は明らかではない。
これらのネットワークは単に表面統計の集合を記憶しているだけなのか、あるいは、彼らが見るシーケンスを生成するプロセスの内部表現に依存しているのだろうか?
gptモデルの変種を単純なボードゲームであるothelloで法的な動きを予測するタスクに適用して、この問題を調査した。
ネットワークはゲームやルールについて事前知識を持っていないが、ボード状態の突発的な非線形内部表現の証拠を明らかにする。
介入実験によれば、この表現はネットワークの出力を制御し、人間の言葉で予測を説明するのに役立つ「相対的塩分マップ」を作成するのに使うことができる。
関連論文リスト
- States Hidden in Hidden States: LLMs Emerge Discrete State Representations Implicitly [72.24742240125369]
本稿では,チェーン・オブ・ステップ・バイ・ステップの解に頼らずに,拡張された計算列を実行する本質的な能力を明らかにする。
注目すべきは、最も先進的なモデルでは、2桁の加算結果を直接出力できることだ。
論文 参考訳(メタデータ) (2024-07-16T06:27:22Z) - Emergent World Models and Latent Variable Estimation in Chess-Playing Language Models [0.0]
我々は,Othelloゲーム上でGPTモデルをトレーニングし,ボード状態の内部表現を学習した。
この作業をチェスのより複雑な領域に拡張し、実際のゲームでトレーニングし、モデルの内部表現を調査します。
Li et al. の以前の合成データセットアプローチとは異なり、我々の分析では、このモデルがプレイヤースキルのような潜伏変数を推定し、次のキャラクタをより正確に予測する方法も学んでいる。
論文 参考訳(メタデータ) (2024-03-21T18:53:23Z) - Emergent Linear Representations in World Models of Self-Supervised
Sequence Models [5.712566125397807]
オセロ演奏ニューラルネットワークは、ボード状態の非線形モデルを学習した。
モデルの内部状態を解釈するには,"私の色"と"反対者の色"の探索がシンプルだが強力な方法であることを示している。
論文 参考訳(メタデータ) (2023-09-02T13:37:34Z) - Towards Few-shot Inductive Link Prediction on Knowledge Graphs: A
Relational Anonymous Walk-guided Neural Process Approach [49.00753238429618]
知識グラフ上のインダクティブリンク予測は,少数ショットリンクを観測した未確認エンティティのリンク不足を予測することを目的としている。
近年の帰納的手法は、目に見えない実体を取り巻く部分グラフを用いて意味情報を取得し、リンクを誘導的に予測する。
本稿では,知識グラフ上の数ショットの帰納的リンク予測をRawNPと表記する,新しいリレーショナル匿名型歩行誘導ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-06-26T12:02:32Z) - Towards Prototype-Based Self-Explainable Graph Neural Network [37.90997236795843]
本稿では,プロトタイプベースの自己説明可能なGNNを学習し,正確な予測とプロトタイプベースの予測説明を同時に行うという,新たな課題について考察する。
学習したプロトタイプは、テストインスタンスの予測とインスタンスレベルの説明を同時に行うためにも使用される。
論文 参考訳(メタデータ) (2022-10-05T00:47:42Z) - Hidden Schema Networks [3.4123736336071864]
帰納的バイアスや明示的関係構造を通じて、新しいニューラルネットワークモデルを導入する。
このモデルは文を記号列にエンコードするが、これは偏りのあるランダム・ウォーカーが訪れたノードに対応する。
このモデルにより,ランダムなトークン列のデータセットから基底構造グラフを抽出できることを示す。
論文 参考訳(メタデータ) (2022-07-08T09:26:19Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Temporal Graph Network Embedding with Causal Anonymous Walks
Representations [54.05212871508062]
本稿では,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しいアプローチを提案する。
評価のために、時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。
欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて、我々のモデルの適用性と優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-19T15:39:52Z) - A Sober Look at the Unsupervised Learning of Disentangled
Representations and their Evaluation [63.042651834453544]
モデルとデータの両方に帰納的バイアスを伴わずに,非教師なしの非教師付き表現学習は不可能であることを示す。
異なる手法は、対応する損失によって「強化」された特性を効果的に強制するが、よく見分けられたモデルは監督なしでは特定できないように見える。
以上の結果から,遠絡学習における今後の研究は,帰納的バイアスと(単純に)監督の役割を明確化すべきであることが示唆された。
論文 参考訳(メタデータ) (2020-10-27T10:17:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。