Fugu-MT 論文翻訳(概要): How GPT learns layer by layer

論文の概要: How GPT learns layer by layer

arxiv url: http://arxiv.org/abs/2501.07108v1
Date: Mon, 13 Jan 2025 07:42:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-14 19:20:13.740445
Title: How GPT learns layer by layer
Title（参考訳）: GPTが層ごとの学習方法
Authors: Jason Du, Kelly Hong, Alishba Imran, Erfan Jahanparast, Mehdi Khfifi, Kaichun Qiao,
Abstract要約: 我々は,Othelloゲームプレイで訓練されたGPTベースのモデルであるOthelloGPTを,表現学習のためのテストベッドとして分析する。我々は、スパースオートエンコーダ(SAE)と線形プローブを比較し、SAEがより頑丈で、構成的特徴に対する不整合な洞察を提供することを示した。 SAEを使ってタイル色とタイル安定性に関連する機能をデコードします。
参考スコア（独自算出の注目度）: 0.28926166547031595
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) excel at tasks like language processing, strategy games, and reasoning but struggle to build generalizable internal representations essential for adaptive decision-making in agents. For agents to effectively navigate complex environments, they must construct reliable world models. While LLMs perform well on specific benchmarks, they often fail to generalize, leading to brittle representations that limit their real-world effectiveness. Understanding how LLMs build internal world models is key to developing agents capable of consistent, adaptive behavior across tasks. We analyze OthelloGPT, a GPT-based model trained on Othello gameplay, as a controlled testbed for studying representation learning. Despite being trained solely on next-token prediction with random valid moves, OthelloGPT shows meaningful layer-wise progression in understanding board state and gameplay. Early layers capture static attributes like board edges, while deeper layers reflect dynamic tile changes. To interpret these representations, we compare Sparse Autoencoders (SAEs) with linear probes, finding that SAEs offer more robust, disentangled insights into compositional features, whereas linear probes mainly detect features useful for classification. We use SAEs to decode features related to tile color and tile stability, a previously unexamined feature that reflects complex gameplay concepts like board control and long-term planning. We study the progression of linear probe accuracy and tile color using both SAE's and linear probes to compare their effectiveness at capturing what the model is learning. Although we begin with a smaller language model, OthelloGPT, this study establishes a framework for understanding the internal representations learned by GPT models, transformers, and LLMs more broadly. Our code is publicly available: https://github.com/ALT-JS/OthelloSAE.
Abstract（参考訳）: 大きな言語モデル(LLM)は、言語処理や戦略ゲーム、推論といったタスクに優れていますが、エージェントの適応的な意思決定に不可欠な一般化可能な内部表現の構築には苦労しています。エージェントが複雑な環境を効果的にナビゲートするには、信頼できる世界モデルを構築する必要がある。 LLMは特定のベンチマークでよく機能するが、しばしば一般化に失敗し、現実の有効性を制限する脆い表現をもたらす。 LLMが内部世界モデルをどのように構築するかを理解することは、タスク全体にわたって一貫した適応的な振る舞いが可能なエージェントを開発する上で鍵となる。我々は,Othelloゲームプレイで学習したGPTベースのモデルであるOthelloGPTを,表現学習のための制御テストベッドとして分析する。 OthelloGPTは、ランダムなランダムな動きを伴う次のトーケン予測にのみ訓練されているにもかかわらず、ボードの状態とゲームプレイを理解する上で有意義なレイヤーワイドな進歩を示す。初期のレイヤはボードエッジのような静的な属性をキャプチャするが、深いレイヤは動的タイルの変更を反映する。これらの表現を解釈するために、Sparse Autoencoders (SAEs) と線形プローブを比較し、SAEsがより堅牢で不整合な構成特徴の洞察を提供するのに対し、線形プローブは主として分類に有用な特徴を検出する。 SAEを使ってタイルの色やタイルの安定性に関連する機能をデコードします。本研究では,SAEと線形プローブの双方を用いて,線形プローブの精度とタイルの色調の進行について検討し,モデルが学習対象を捉える上での有効性を比較した。より小さな言語モデルであるOthelloGPTから始めるが、本研究では、GPTモデル、トランスフォーマー、LLMによって学習された内部表現をより広範囲に理解するための枠組みを確立する。私たちのコードは、https://github.com/ALT-JS/OthelloSAE.comで公開されています。

関連論文リスト

How Visual Representations Map to Language Feature Space in Multimodal LLMs [9.880509106657009]
視覚言語モデル(VLM)が視覚および言語表現のアライメントを実現するメカニズムについて検討する。言語モデルを凍結させることにより、視覚データに適応することなく、元の言語表現を確実に維持する。視覚表現が言語特徴表現と徐々に整合し、中から後期の層に収束する階層的進行を明らかにする。
論文参考訳（メタデータ） (2025-06-13T17:34:05Z)
If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文参考訳（メタデータ） (2025-03-30T16:50:57Z)
LLM Knows Geometry Better than Algebra: Numerical Understanding of LLM-Based Agents in A Trading Arena [44.13836431002364]
エージェントが株式ポートフォリオに投資するゼロサムゲームを通じて複雑な経済システムをシミュレーションする仮想数値ゲームを設計する。実験の結果,GPT-4o を含む LLM は,大域的な傾向ではなく局所的な詳細に焦点を絞って,平文のストックデータを扱う場合の代数的推論に苦慮していることがわかった。対照的に、LLMは、散布プロットやK線チャートのような視覚データで示される場合、幾何学的推論により大幅に向上する。
論文参考訳（メタデータ） (2025-02-25T08:41:01Z)
Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文参考訳（メタデータ） (2025-01-02T22:26:54Z)
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己制限を統合したセルフプレイフレームワークで、気を散らさずに有効かつ同等の選好ペアを得る。実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文参考訳（メタデータ） (2024-12-16T09:47:43Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文参考訳（メタデータ） (2023-11-18T03:05:43Z)
Implicit meta-learning may lead language models to trust more reliable sources [9.073765860925395]
合成微調整データセットにおける有用性の指標としてランダム文字列(タグ)を導入する。このデータセットの微調整は暗黙的メタラーニング(IML)につながる私たちは、将来のAIシステムの能力、リスク、制御可能性について、私たちの結果が示唆するものを反映しています。
論文参考訳（メタデータ） (2023-10-23T15:50:08Z)
LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。 LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。ゼロショット学習よりもパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-10-12T17:17:27Z)
From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。この結果から,指導指導の3つの重要な影響が明らかになった。
論文参考訳（メタデータ） (2023-09-30T21:16:05Z)
Evaluating and Explaining Large Language Models for Code Using Syntactic Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文参考訳（メタデータ） (2023-08-07T18:50:57Z)
Don't Judge a Language Model by Its Last Layer: Contrastive Learning with Layer-Wise Attention Pooling [6.501126898523172]
近年の事前学習型言語モデル (PLM) は, 言語的特徴や文脈化文表現の学習を通じて, 多くの自然言語処理タスクにおいて大きな成功を収めている。本稿では,各層に捕えられたレイヤワイド信号をモデルで保存し,下流タスクの消化言語的特徴を学習する,アテンションベースのプーリング戦略を提案する。
論文参考訳（メタデータ） (2022-09-13T13:09:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。