Fugu-MT 論文翻訳(概要): Language Models Use Trigonometry to Do Addition

論文の概要: Language Models Use Trigonometry to Do Addition

arxiv url: http://arxiv.org/abs/2502.00873v1
Date: Sun, 02 Feb 2025 18:55:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:54.278714
Title: Language Models Use Trigonometry to Do Addition
Title（参考訳）: 言語モデルでは三角法を使って追加を行う
Authors: Subhash Kantamneni, Max Tegmark,
Abstract要約: 3つの大きな言語モデル (LLM) がどのように加算されるかを示す。 LLMはヘリックス上の数値を表し、このヘリックスを演算して加算を行う。
参考スコア（独自算出の注目度）: 6.563993791037387
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mathematical reasoning is an increasingly important indicator of large language model (LLM) capabilities, yet we lack understanding of how LLMs process even simple mathematical tasks. To address this, we reverse engineer how three mid-sized LLMs compute addition. We first discover that numbers are represented in these LLMs as a generalized helix, which is strongly causally implicated for the tasks of addition and subtraction, and is also causally relevant for integer division, multiplication, and modular arithmetic. We then propose that LLMs compute addition by manipulating this generalized helix using the "Clock" algorithm: to solve $a+b$, the helices for $a$ and $b$ are manipulated to produce the $a+b$ answer helix which is then read out to model logits. We model influential MLP outputs, attention head outputs, and even individual neuron preactivations with these helices and verify our understanding with causal interventions. By demonstrating that LLMs represent numbers on a helix and manipulate this helix to perform addition, we present the first representation-level explanation of an LLM's mathematical capability.
Abstract（参考訳）: 数学的推論は大規模言語モデル(LLM)の能力の指標としてますます重要になっているが、LLMが単純な数学的タスクをどのように処理するかは理解されていない。これを解決するために、3つの中型LLMの演算加算法をリバースエンジニアリングする。数値はこれらの LLM において一般化ヘリックスとして表現され、これは加法や減算のタスクに強く因果的に関係しており、整数除算、乗算、モジュラー算術にも因果的に関係している。次に、この一般化ヘリックスを "Clock" アルゴリズムを用いて演算することにより、LCMの計算加算を提案する:$a+b$ を解くために、$a$ と $b$ のヘリックスを演算して $a+b$ の解ヘリックスを生成し、モデルロジットに読み出す。我々は、これらのヘリスを用いて、影響力のあるMLP出力、アテンションヘッド出力、さらには個々のニューロンプレアクティベーションをモデル化し、因果介入による理解を検証する。 LLMがヘリックス上の数を表すことを証明し、このヘリックスを演算して加算を行うことで、LLMの数学的能力に関する最初の表現レベル説明を提示する。

関連論文リスト

LLM+AL: Bridging Large Language Models and Action Languages for Complex Reasoning about Actions [7.575628120822444]
LLM+ALは,LLMの自然言語理解能力を,行動言語の記号的推論強度で橋渡しする手法である。 LLM+AL"はChatGPT-4, Claude 3 Opus, Gemini Ultra 1.0, o1-previewなど,最先端のLLMと比較する。以上の結果から,LLM+ALは比較的最小限の修正しか行わないが,常に正しい解が得られることが示唆された。
論文参考訳（メタデータ） (2025-01-01T13:20:01Z)
Language Models are Symbolic Learners in Arithmetic [8.34588487873447]
大規模言語モデル(LLM)は、言語モデリングと数値計算の間に固有の違いがあるため、算術学習に苦慮していると考えられている。まず,算術学習において LLM が部分積を利用するかどうかを検討する。 LLMは学習後にいくつかの部分積を識別できるが、算術的なタスクには利用できない。
論文参考訳（メタデータ） (2024-10-21T01:57:16Z)
Large Language Models and the Extended Church-Turing Thesis [0.0]
本稿では,計算可能性理論と計算複雑性理論を用いて,大規模言語モデル(LLM)の計算能力について検討する。固定的な(非適応的な) LLM は、計算量的に a, probably large, deterministic finite-state transducer と同値であることを示す。本研究は,いくつかの関連分野と哲学の幅広い文脈における知見のメリットについて論じる。
論文参考訳（メタデータ） (2024-09-11T03:09:55Z)
Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。本研究では,LLMが計算を行う特定のメカニズムを明らかにする。 LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文参考訳（メタデータ） (2024-09-03T07:01:46Z)
Can Large Language Models Play Games? A Case Study of A Self-Play Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。 Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文参考訳（メタデータ） (2024-03-08T19:16:29Z)
Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文参考訳（メタデータ） (2024-02-19T11:11:08Z)
ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文参考訳（メタデータ） (2024-02-06T08:45:51Z)
Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文参考訳（メタデータ） (2024-01-30T17:38:54Z)
Language Models Encode the Value of Numbers Linearly [28.88044346200171]
数学の基本要素である数値を言語モデルでエンコードする方法を考察する。実験結果は,大規模言語モデルにおける符号付き数値の存在を支持する。我々の研究は、LLMが数値を線形にエンコードする証拠を提供する。
論文参考訳（メタデータ） (2024-01-08T08:54:22Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。