論文の概要: Arithmetic in the Wild: Llama uses Base-10 Addition to Reason About Cyclic Concepts
- arxiv url: http://arxiv.org/abs/2605.01148v1
- Date: Fri, 01 May 2026 22:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.610882
- Title: Arithmetic in the Wild: Llama uses Base-10 Addition to Reason About Cyclic Concepts
- Title(参考訳): 野生の算術:LlamaはBase-10をサイクル概念に関する推論に用いている
- Authors: Sheridan Feucht, Tal Haklay, Usha Bhalla, Daniel Wurgaft, Can Rager, Raphaël Sarfati, Jack Merullo, Thomas McGrath, Owen Lewis, Ekdeep Singh Lubana, Thomas Fel, Atticus Geiger,
- Abstract要約: 循環概念に対するLlama-3.1-8Bの表現が円形に構成されていることを示す。
このモデルは、概念固有の幾何学とは独立して機能するタスクにまたがる汎用的な追加メカニズムを再利用する。
我々の研究は、因果抽象と特徴幾何学の相互作用によって、LMの機械的理解が深まることを強調している。
- 参考スコア(独自算出の注目度): 31.19818842950845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Does structure in representations imply structure in computation? We study how Llama-3.1-8B reasons over cyclic concepts (e.g., "what month is six months after August?"). Even though Llama-3.1-8B's representations for these concepts are circularly structured, we find that instead of directly computing modular addition in the period of the cyclic concept (e.g., 12 for months), the model re-uses a generic addition mechanism across tasks that operates independently of concept-specific geometry. First, it computes the sum of its two inputs using base-10 addition (six + August=14). Then, it maps this sum back to cyclic concept space (14->February). We show that Llama-3.1-8B uses task-agnostic Fourier features to compute these sums--in fact, these features have periods that respect standard base-10 addition, e.g., 2, 5, and 10, rather than the cyclic concept period (e.g., 12 for months). Furthermore, we identify a sparse set of 28 MLP neurons re-used across all tasks (approximately 0.2% of the MLP at layer 18) that can be partitioned into disjoint clusters, each computing the sum for a Fourier feature with a different period. Our work highlights how an interplay between causal abstraction and feature geometry can deepen our mechanistic understanding of LMs.
- Abstract(参考訳): 表現の構造は計算において構造を意味するか?
循環概念に対するLlama-3.1-8Bの理由(例:8月以降の6ヶ月は?
これらの概念に対するLlama-3.1-8Bの表現は円弧的に構成されているが、循環的概念(例:12 for months)の期間中にモジュラー加算を直接計算する代わりに、モデルが概念固有の幾何学とは独立に機能するタスク間での一般的な加算機構を再利用していることが分かる。
まず、ベース10の追加(6 + August=14)を使って2つの入力の合計を計算する。
そして、この和を巡回概念空間(14->2月)に写像する。
Llama-3.1-8Bは、これらの和を計算するためにタスクに依存しないフーリエ特徴を用いており、実際、これらの特徴は循環的概念期間(例:12、月)よりも標準ベース10の加算(例:2,5,10)を尊重する周期を持つ。
さらに,全タスクにまたがる28個のMLPニューロンのスパース集合(第18層におけるMLPの約0.2%)を特定し,それぞれ異なる周期でフーリエ特徴の和を計算する。
我々の研究は、因果抽象と特徴幾何学の相互作用によって、LMの機械的理解が深まることを強調している。
関連論文リスト
- Not All Language Model Features Are One-Dimensionally Linear [8.577217344304072]
独立的・非共起的な低次元特徴に分解できるかどうかに基づいて、既約多次元特徴の厳密な定義を開発する。
スパースオートエンコーダを用いて, GPT-2 と Mistral 7B の多次元特徴を自動的に検出する。
我々は、これらの正確な円が、その年の週と月におけるモジュラー算術に関わる計算問題を解くのに使用されるタスクを特定する。
論文 参考訳(メタデータ) (2024-05-23T17:59:04Z) - TCNCA: Temporal Convolution Network with Chunked Attention for Scalable
Sequence Processing [52.64837396100988]
MEGAは最近のトランスフォーマーベースのアーキテクチャで、線形リカレント演算子を使用し、並列計算はFFTに基づいて、$O(LlogL)$で、$L$はシーケンス長である。
線形再帰を特別な時間的畳み込みネットワークに置き換えることで、より浅いネットワークでより大きい受容場を許容し、計算複雑性を$O(L)$に減らし、それらのアプローチを構築する。
我々は,EnWik8言語モデリングにおけるTCNCA,LRA(Long-range-arena)シーケンス分類,および合成推論ベンチマーク連想リコールの評価を行った。
論文 参考訳(メタデータ) (2023-12-09T16:12:25Z) - Tractable Bounding of Counterfactual Queries by Knowledge Compilation [51.47174989680976]
本稿では, パール構造因果モデルにおいて, 因果関係などの部分的特定可能なクエリのバウンダリングの問題について議論する。
最近提案された反復EMスキームは初期化パラメータをサンプリングしてそれらの境界を内部近似する。
シンボルパラメータを実際の値に置き換えた回路構造を,単一のシンボル知識コンパイルによって得られることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:10:40Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Abstract Geometrical Computation 11: Slanted Firing Squad
Synchronisation on Signal Machines [0.0]
セルオートマタ上のスクワッドシンクロナイゼーションのフィリング(Firing Squad Synchronization)は、その範囲について事前の知識を持たない有限個のセルの動的シンクロナイゼーションである。
提案された構成の多くは自然に信号機の連続的な設定に翻訳される。
本稿では,信号機械モデルにおける計算可能蓄積ラインのさらなる研究のための基本的なツールを提供する。
論文 参考訳(メタデータ) (2021-06-21T15:15:01Z) - Learning Concepts Described by Weight Aggregation Logic [0.0]
我々は、重みを集約し、それらの集合を比較し、より複雑な公式を構築するための一階述語論理の拡張を導入する。
重み付き背景構造上のFOWA1で定義可能な概念は, 擬似線形時間前処理後の多言語時間において, 不可知的にPAC学習可能であることを示す。
論文 参考訳(メタデータ) (2020-09-22T14:32:42Z) - Relevant OTOC operators: footprints of the classical dynamics [68.8204255655161]
OTOC-RE定理(OTOC-RE theorem)は、作用素の完備な基底にまとめられたOTOCを第二レニイエントロピー(Renyi entropy)に関連付ける定理である。
関係作用素の小さな集合に対する和は、エントロピーの非常によい近似を得るのに十分であることを示す。
逆に、これは複雑性の別の自然な指標、すなわち時間と関連する演算子の数のスケーリングを提供する。
論文 参考訳(メタデータ) (2020-07-31T19:23:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。