論文の概要: Emergent Linear Representations in World Models of Self-Supervised
Sequence Models
- arxiv url: http://arxiv.org/abs/2309.00941v2
- Date: Thu, 7 Sep 2023 20:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 17:14:36.450295
- Title: Emergent Linear Representations in World Models of Self-Supervised
Sequence Models
- Title(参考訳): 自己教師付きシーケンスモデルの世界モデルにおける創発的線形表現
- Authors: Neel Nanda, Andrew Lee, Martin Wattenberg
- Abstract要約: オセロ演奏ニューラルネットワークは、ボード状態の非線形モデルを学習した。
モデルの内部状態を解釈するには,"私の色"と"反対者の色"の探索がシンプルだが強力な方法であることを示している。
- 参考スコア(独自算出の注目度): 5.712566125397807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How do sequence models represent their decision-making process? Prior work
suggests that Othello-playing neural network learned nonlinear models of the
board state (Li et al., 2023). In this work, we provide evidence of a closely
related linear representation of the board. In particular, we show that probing
for "my colour" vs. "opponent's colour" may be a simple yet powerful way to
interpret the model's internal state. This precise understanding of the
internal representations allows us to control the model's behaviour with simple
vector arithmetic. Linear representations enable significant interpretability
progress, which we demonstrate with further exploration of how the world model
is computed.
- Abstract(参考訳): シーケンスモデルは意思決定プロセスをどのように表現するか?
以前の研究は、Othello-playing Neural Networkがボード状態の非線形モデルを学んだことを示唆している(Li et al., 2023)。
本研究では,板の線形表現が密接に関連していることを示す。
特に、"my color" と "opponent's color" の検索は、モデルの内部状態をシンプルかつ強力に解釈する方法であることを示している。
この内部表現の正確な理解により、単純なベクトル演算でモデルの振る舞いを制御できる。
線形表現は重要な解釈可能性の進展を可能にし,世界モデルがどのように計算されるかをさらに探究する。
関連論文リスト
- Are Linear Regression Models White Box and Interpretable? [0.0]
説明可能な人工知能(XAI)は、モデルを理解し解釈するために機械学習モデルに適用または組み込んだ一連のツールとアルゴリズムである。
線形回帰を含む単純なモデルは実装が容易であり、計算の複雑さが小さく、出力を視覚化するのも容易である。
論文 参考訳(メタデータ) (2024-07-16T21:05:51Z) - Towards Compositional Interpretability for XAI [3.3768167170511587]
本稿では,カテゴリ理論に基づくAIモデルとその解釈可能性の定義手法を提案する。
我々は、幅広いAIモデルを構成モデルと比較する。
標準の'本質的に解釈可能な'モデルを作るものは、最も明確に図式化されます。
論文 参考訳(メタデータ) (2024-06-25T14:27:03Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - Globally Interpretable Graph Learning via Distribution Matching [12.885580925389352]
我々は、まだ十分に研究されていない重要な質問に答えることを目指している。グラフ学習手順のグローバルな解釈を提供するには、どうすればよいのか?
我々は,この問題を,学習過程を支配する高レベルかつ人間の知能なパターンを蒸留することを目的とした,グローバルな解釈可能なグラフ学習として定式化する。
本稿では,解釈に基づいて学習したモデルの忠実度を評価するために,新しいモデル忠実度尺度を提案する。
論文 参考訳(メタデータ) (2023-06-18T00:50:36Z) - Learning with Explanation Constraints [91.23736536228485]
我々は、説明がモデルの学習をどのように改善するかを分析するための学習理論フレームワークを提供する。
我々は,多数の合成および実世界の実験に対して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T15:06:47Z) - Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task [75.35278593566068]
言語モデルは驚くべき範囲の能力を示しているが、その明らかな能力の源泉は不明である。
これらのネットワークは単に表面統計の集合を記憶しているだけなのか、あるいは、彼らが見るシーケンスを生成するプロセスの内部表現に依存しているのだろうか?
簡単なボードゲームOthelloにおける法的な動きを予測するタスクに,GPTモデルの変種を適用して検討する。
論文 参考訳(メタデータ) (2022-10-24T16:29:55Z) - Fair Interpretable Representation Learning with Correction Vectors [60.0806628713968]
我々は「補正ベクトル」の学習を中心にした公正表現学習のための新しい枠組みを提案する。
このような方法で制約されたいくつかの公正表現学習モデルが、ランキングや分類性能の損失を示さないことを実験的に示す。
論文 参考訳(メタデータ) (2022-02-07T11:19:23Z) - Recurrence-Aware Long-Term Cognitive Network for Explainable Pattern
Classification [0.0]
構造化データの解釈可能なパターン分類のためのLCCNモデルを提案する。
本手法は, 決定過程における各特徴の関連性を定量化し, 説明を提供する独自のメカニズムを提供する。
解釈可能なモデルでは,最先端の白黒ボックスと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2021-07-07T18:14:50Z) - Explainable Matrix -- Visualization for Global and Local
Interpretability of Random Forest Classification Ensembles [78.6363825307044]
本研究では,ランダムフォレスト (RF) 解釈のための新しい可視化手法である Explainable Matrix (ExMatrix) を提案する。
単純なマトリックスのようなメタファで、行はルール、列は特徴、セルはルールを述語する。
ExMatrixの適用性は、異なる例を通じて確認され、RFモデルの解釈可能性を促進するために実際にどのように使用できるかを示している。
論文 参考訳(メタデータ) (2020-05-08T21:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。