論文の概要: Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics
- arxiv url: http://arxiv.org/abs/2410.21272v1
- Date: Mon, 28 Oct 2024 17:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:14:19.496883
- Title: Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics
- Title(参考訳): アルゴリズムのない算数論:言語モデルがヒューリスティックスのバグで数学を解く
- Authors: Yaniv Nikankin, Anja Reusch, Aaron Mueller, Yonatan Belinkov,
- Abstract要約: 大規模言語モデル (LLM) は, 頑健なアルゴリズムや暗記を使わず, 算術的に実行可能であることを示す。
実験結果から,LLMはロバストなアルゴリズムや暗記を使わずに演算を行うことがわかった。
- 参考スコア(独自算出の注目度): 43.86518549293703
- License:
- Abstract: Do large language models (LLMs) solve reasoning tasks by learning robust generalizable algorithms, or do they memorize training data? To investigate this question, we use arithmetic reasoning as a representative task. Using causal analysis, we identify a subset of the model (a circuit) that explains most of the model's behavior for basic arithmetic logic and examine its functionality. By zooming in on the level of individual circuit neurons, we discover a sparse set of important neurons that implement simple heuristics. Each heuristic identifies a numerical input pattern and outputs corresponding answers. We hypothesize that the combination of these heuristic neurons is the mechanism used to produce correct arithmetic answers. To test this, we categorize each neuron into several heuristic types-such as neurons that activate when an operand falls within a certain range-and find that the unordered combination of these heuristic types is the mechanism that explains most of the model's accuracy on arithmetic prompts. Finally, we demonstrate that this mechanism appears as the main source of arithmetic accuracy early in training. Overall, our experimental results across several LLMs show that LLMs perform arithmetic using neither robust algorithms nor memorization; rather, they rely on a "bag of heuristics".
- Abstract(参考訳): 大規模言語モデル(LLM)は、堅牢な一般化可能なアルゴリズムを学習することで推論タスクを解決するか、トレーニングデータを記憶するか?
この問題を調査するために,算術的推論を代表課題とする。
因果解析を用いて、モデルの振る舞いのほとんどを基本的な算術論理で説明し、その機能を検証したモデルのサブセット(回路)を同定する。
個々の回路ニューロンのレベルを拡大することにより、単純なヒューリスティックスを実装する重要なニューロンのスパースセットを発見する。
各ヒューリスティックは数値入力パターンを特定し、対応する回答を出力する。
我々は、これらのヒューリスティックニューロンの組み合わせが、正しい算術的な答えを生み出すのに使用されるメカニズムであると仮定する。
これをテストするために、各ニューロンをいくつかのヒューリスティックなタイプに分類する。例えば、オペランドが特定の範囲内に落ちたときに活性化するニューロンのように、これらのヒューリスティックなタイプの無秩序な組み合わせが、モデルの算術的プロンプトにおける精度のほとんどを説明するメカニズムであることを示す。
最後に,この機構が学習初期に算術的精度の主源として現れることを示す。
総合的に, 実験結果から, LLMは頑健なアルゴリズムも暗記もせず, むしろ「ヒューリスティックのバグ」に依存していることが明らかとなった。
関連論文リスト
- No One-Size-Fits-All Neurons: Task-based Neurons for Artificial Neural Networks [25.30801109401654]
人間の脳はタスクベースのニューロンのユーザなので、人工ネットワークの設計はタスクベースのアーキテクチャ設計からタスクベースのニューロン設計に移行できるだろうか?
本稿では,タスクベースニューロンのプロトタイピングのための2段階のフレームワークを提案する。
実験により、提案されたタスクベースのニューロン設計は実現可能であるだけでなく、他の最先端モデルと競合する性能を提供することが示された。
論文 参考訳(メタデータ) (2024-05-03T09:12:46Z) - Inferring Inference [7.11780383076327]
我々は,大規模神経活動パターンから標準分散計算を推定するフレームワークを開発した。
確率的グラフィカルモデルに近似推論アルゴリズムを暗黙的に実装したモデル脳のための記録をシミュレートする。
全体として、このフレームワークはニューラル記録の解釈可能な構造を発見するための新しいツールを提供する。
論文 参考訳(メタデータ) (2023-10-04T22:12:11Z) - The Clock and the Pizza: Two Stories in Mechanistic Explanation of
Neural Networks [59.26515696183751]
ニューラルネットワークにおけるアルゴリズム発見は、時としてより複雑であることを示す。
単純な学習問題でさえ、驚くほど多様なソリューションを許容できることが示されています。
論文 参考訳(メタデータ) (2023-06-30T17:59:13Z) - Supervised Parameter Estimation of Neuron Populations from Multiple
Firing Events [3.2826301276626273]
本研究では,一対のスパイキング系列とパラメータラベルからなる学習セットから,ニューロン集団のパラメータを自動的に学習する手法について,教師あり学習を通して検討した。
我々は、ニューロンモデルを用いて、異なるパラメータ設定での計算において多くのニューロン集団をシミュレートする。
次に、遺伝的検索、ベイズ逐次推定、ランダムウォーク近似モデルなどの古典的手法と比較する。
論文 参考訳(メタデータ) (2022-10-02T03:17:05Z) - Recognizing and Verifying Mathematical Equations using Multiplicative
Differential Neural Units [86.9207811656179]
メモリ拡張ニューラルネットワーク(NN)は、高次、メモリ拡張外挿、安定した性能、より高速な収束を実現することができることを示す。
本モデルでは,現在の手法と比較して1.53%の精度向上を達成し,2.22%のtop-1平均精度と2.96%のtop-5平均精度を達成している。
論文 参考訳(メタデータ) (2021-04-07T03:50:11Z) - Estimating Multiplicative Relations in Neural Networks [0.0]
対数関数の特性を用いて、積を線形表現に変換し、バックプロパゲーションを用いて学習できるアクティベーション関数のペアを提案する。
いくつかの複雑な算術関数に対してこのアプローチを一般化し、トレーニングセットとの不整合分布の精度を検証しようと試みる。
論文 参考訳(メタデータ) (2020-10-28T14:28:24Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z) - iNALU: Improved Neural Arithmetic Logic Unit [2.331160520377439]
最近提案されたNeural Arithmetic Logic Unit (NALU)は、ネットワークのユニットによって数学的関係を明確に表現し、和、減算、乗算などの操作を学ぶことができる新しいニューラルネットワークである。
本稿では,本モデルが安定性の問題を解き,算術精度と収束性により元のNALUモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-03-17T10:37:22Z) - Neural Arithmetic Units [84.65228064780744]
ニューラルネットワークは複雑な関数を近似することができるが、実数に対して正確な算術演算を行うのに苦労する。
ニューラルネットワークコンポーネントとして、正確な加算と減算を学習可能なニューラル加算ユニット(NAU)と、ベクトルのサブセットを乗算可能なニューラル乗算ユニット(NMU)がある。
提案したユニットNAUとNMUは、従来のニューラルネットワークユニットと比較して、より一貫して収束し、パラメータを少なくし、より速く学習し、より大きな隠れたサイズに収束し、スパースと意味のある重みを得、負の値と小さな値に外挿することができる。
論文 参考訳(メタデータ) (2020-01-14T19:35:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。