Fugu-MT 論文翻訳(概要): Emergent world representations: Exploring a sequence model trained on a synthetic task

論文の概要: Emergent world representations: Exploring a sequence model trained on a synthetic task

arxiv url: http://arxiv.org/abs/2210.13382v1
Date: Mon, 24 Oct 2022 16:29:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 13:00:38.163438
Title: Emergent world representations: Exploring a sequence model trained on a synthetic task
Title（参考訳）: 創発的世界表現:合成タスクで訓練されたシーケンスモデルを探索する
Authors: Kenneth Li, Aspen K. Hopkins, David Bau, Fernanda Vi\'egas, Hanspeter Pfister, Martin Wattenberg
Abstract要約: 言語モデルは驚くべき範囲の能力を示しているが、その明らかな能力の源泉は不明である。これらのネットワークは単に表面統計の集合を記憶しているだけなのか、あるいは、彼らが見るシーケンスを生成するプロセスの内部表現に依存しているのだろうか? 簡単なボードゲームOthelloにおける法的な動きを予測するタスクに,GPTモデルの変種を適用して検討する。
参考スコア（独自算出の注目度）: 79.114882426162
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models show a surprising range of capabilities, but the source of their apparent competence is unclear. Do these networks just memorize a collection of surface statistics, or do they rely on internal representations of the process that generates the sequences they see? We investigate this question by applying a variant of the GPT model to the task of predicting legal moves in a simple board game, Othello. Although the network has no a priori knowledge of the game or its rules, we uncover evidence of an emergent nonlinear internal representation of the board state. Interventional experiments indicate this representation can be used to control the output of the network and create "latent saliency maps" that can help explain predictions in human terms.
Abstract（参考訳）: 言語モデルには驚くべき能力範囲があるが、その明らかに能力の源は明らかではない。これらのネットワークは単に表面統計の集合を記憶しているだけなのか、あるいは、彼らが見るシーケンスを生成するプロセスの内部表現に依存しているのだろうか? gptモデルの変種を単純なボードゲームであるothelloで法的な動きを予測するタスクに適用して、この問題を調査した。ネットワークはゲームやルールについて事前知識を持っていないが、ボード状態の突発的な非線形内部表現の証拠を明らかにする。介入実験によれば、この表現はネットワークの出力を制御し、人間の言葉で予測を説明するのに役立つ「相対的塩分マップ」を作成するのに使うことができる。

関連論文リスト

Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文参考訳（メタデータ） (2025-01-02T22:26:54Z)
A Causal World Model Underlying Next Token Prediction: Exploring GPT in a Controlled Environment [5.156443267442059]
生成事前学習型トランスフォーマー(GPT)モデルは、次のトークンを予測するためにのみ訓練され、シーケンスが一度に1つのトークンを生成する世界モデルから暗黙的に学習される。 GPTモデルでは, 因果構造が高信頼な注意機構に符号化された分布外配列に対して, 合法的な次の動きが生じる可能性が示唆された。違法な動きを発生させる場合、因果構造を捕捉することができない。
論文参考訳（メタデータ） (2024-12-10T12:05:03Z)
States Hidden in Hidden States: LLMs Emerge Discrete State Representations Implicitly [72.24742240125369]
本稿では,チェーン・オブ・ステップ・バイ・ステップの解に頼らずに,拡張された計算列を実行する本質的な能力を明らかにする。注目すべきは、最も先進的なモデルでは、2桁の加算結果を直接出力できることだ。
論文参考訳（メタデータ） (2024-07-16T06:27:22Z)
Emergent World Models and Latent Variable Estimation in Chess-Playing Language Models [0.0]
我々は,Othelloゲーム上でGPTモデルをトレーニングし,ボード状態の内部表現を学習した。この作業をチェスのより複雑な領域に拡張し、実際のゲームでトレーニングし、モデルの内部表現を調査します。 Li et al. の以前の合成データセットアプローチとは異なり、我々の分析では、このモデルがプレイヤースキルのような潜伏変数を推定し、次のキャラクタをより正確に予測する方法も学んでいる。
論文参考訳（メタデータ） (2024-03-21T18:53:23Z)
Emergent Linear Representations in World Models of Self-Supervised Sequence Models [5.712566125397807]
オセロ演奏ニューラルネットワークは、ボード状態の非線形モデルを学習した。モデルの内部状態を解釈するには,"私の色"と"反対者の色"の探索がシンプルだが強力な方法であることを示している。
論文参考訳（メタデータ） (2023-09-02T13:37:34Z)
Towards Few-shot Inductive Link Prediction on Knowledge Graphs: A Relational Anonymous Walk-guided Neural Process Approach [49.00753238429618]
知識グラフ上のインダクティブリンク予測は,少数ショットリンクを観測した未確認エンティティのリンク不足を予測することを目的としている。近年の帰納的手法は、目に見えない実体を取り巻く部分グラフを用いて意味情報を取得し、リンクを誘導的に予測する。本稿では,知識グラフ上の数ショットの帰納的リンク予測をRawNPと表記する,新しいリレーショナル匿名型歩行誘導ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-06-26T12:02:32Z)
Towards Prototype-Based Self-Explainable Graph Neural Network [37.90997236795843]
本稿では,プロトタイプベースの自己説明可能なGNNを学習し,正確な予測とプロトタイプベースの予測説明を同時に行うという,新たな課題について考察する。学習したプロトタイプは、テストインスタンスの予測とインスタンスレベルの説明を同時に行うためにも使用される。
論文参考訳（メタデータ） (2022-10-05T00:47:42Z)
Hidden Schema Networks [3.4123736336071864]
帰納的バイアスや明示的関係構造を通じて、新しいニューラルネットワークモデルを導入する。このモデルは文を記号列にエンコードするが、これは偏りのあるランダム・ウォーカーが訪れたノードに対応する。このモデルにより,ランダムなトークン列のデータセットから基底構造グラフを抽出できることを示す。
論文参考訳（メタデータ） (2022-07-08T09:26:19Z)
Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文参考訳（メタデータ） (2021-10-12T23:22:45Z)
Temporal Graph Network Embedding with Causal Anonymous Walks Representations [54.05212871508062]
本稿では,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しいアプローチを提案する。評価のために、時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて、我々のモデルの適用性と優れた性能を示す。
論文参考訳（メタデータ） (2021-08-19T15:39:52Z)
A Sober Look at the Unsupervised Learning of Disentangled Representations and their Evaluation [63.042651834453544]
モデルとデータの両方に帰納的バイアスを伴わずに,非教師なしの非教師付き表現学習は不可能であることを示す。異なる手法は、対応する損失によって「強化」された特性を効果的に強制するが、よく見分けられたモデルは監督なしでは特定できないように見える。以上の結果から,遠絡学習における今後の研究は,帰納的バイアスと(単純に)監督の役割を明確化すべきであることが示唆された。
論文参考訳（メタデータ） (2020-10-27T10:17:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。