Fugu-MT 論文翻訳(概要): Addition in Four Movements: Mapping Layer-wise Information Trajectories in LLMs

論文の概要: Addition in Four Movements: Mapping Layer-wise Information Trajectories in LLMs

arxiv url: http://arxiv.org/abs/2506.07824v1
Date: Mon, 09 Jun 2025 14:48:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 21:10:47.144223
Title: Addition in Four Movements: Mapping Layer-wise Information Trajectories in LLMs
Title（参考訳）: 4つの動きの付加:LLMにおけるレイヤワイズ情報トラジェクトリのマッピング
Authors: Yao Yan,
Abstract要約: LLaMA-3-8B-インストラクタの内部演算過程を解析する。人間が追加を行うステップバイステップ方式に着想を得て,コヒーレントな4段階軌道の提案と解析を行った。出力の近くで、モデルが最終内容を整理し、生成し、正しいトークンが上位ランクを確実に占有する。
参考スコア（独自算出の注目度）: 1.0031971007621712
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-digit addition is a clear probe of the computational power of large language models. To dissect the internal arithmetic processes in LLaMA-3-8B-Instruct, we combine linear probing with logit-lens inspection. Inspired by the step-by-step manner in which humans perform addition, we propose and analyze a coherent four-stage trajectory in the forward pass:Formula-structure representations become linearly decodable first, while the answer token is still far down the candidate list.Core computational features then emerge prominently.At deeper activation layers, numerical abstractions of the result become clearer, enabling near-perfect detection and decoding of the individual digits in the sum.Near the output, the model organizes and generates the final content, with the correct token reliably occupying the top rank.This trajectory suggests a hierarchical process that favors internal computation over rote memorization. We release our code and data to facilitate reproducibility.
Abstract（参考訳）: マルチ桁加算は、大規模言語モデルの計算能力の明らかな調査である。 LLaMA-3-8B-インストラクタの内部演算過程を解析するために、線形探索とロジットレンズ検査を組み合わせる。ステップ・バイ・ステップ(ステップ・バイ・ステップ)によって、人間が加算を行うステップ・バイ・ステップ(ステップ・バイ・ステップ)により、前方パスにおけるコヒーレントな4段階の軌跡が提案され、分析される: 形式的構造表現は、まずは線形デオード可能となり、解答トークンは、まだ候補リストから遠く離れているが、その中心的な計算特徴は顕著に現れ、より深い活性化層では、結果の数値的抽象化がより明確になり、各桁のほぼ完全な検出と復号化が可能となり、出力は、モデルが最終コンテンツを整理し、生成し、正しいトークンが上位ランクを確実に占有する。この軌道は、ロート記憶よりも内部の計算を優先する階層的なプロセスを示している。再現性を促進するために、コードとデータをリリースします。

関連論文リスト

Learning on LLM Output Signatures for gray-box Behavior Analysis [52.81120759532526]
大きな言語モデル(LLM)は広く採用されていますが、その振る舞いに対する私たちの理解は限定的です。グレーボックス設定におけるプロセス汚染とデータ検出のためのトランスフォーマーベースのアプローチを開発する。提案手法は,グレーボックス設定における幻覚とデータ検出における優れた性能を実現し,既存のベースラインを著しく上回る。
論文参考訳（メタデータ） (2025-03-18T09:04:37Z)
Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting [86.15347226865826]
We design an new end-to-end object-aware lifting approach, called Unified-Lift。コントラスト損失を用いて学習したガウスレベルの機能を各ガウス点に拡張し、インスタンス情報をエンコードする。 LERF-Masked、Replica、Messy Roomsの3つのベンチマークで実験を行った。
論文参考訳（メタデータ） (2025-03-18T08:42:23Z)
Learning to Add, Multiply, and Execute Algorithmic Instructions Exactly with Neural Networks [5.3800094588915375]
無限幅限界における2層完全連結ネットワークのトレーニング力学について検討する。このようなモデルの十分な大規模なアンサンブルが、高い確率で正確に実行するためにどのように訓練されるかを示す。対数的に多くのトレーニングデータだけを用いて効率よく達成できることを示します。
論文参考訳（メタデータ） (2025-02-24T00:50:02Z)
LASE: Learned Adjacency Spectral Embeddings [7.612218105739107]
グラフ入力から結節隣接スペクトル埋め込み(ASE)を学習する。 LASEは解釈可能で、パラメータ効率が高く、未観測のエッジを持つ入力に対して堅牢である。 LASEレイヤは、Graph Convolutional Network (GCN)と完全に接続されたGraph Attention Network (GAT)モジュールを組み合わせる。
論文参考訳（メタデータ） (2024-12-23T17:35:19Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
Natural Is The Best: Model-Agnostic Code Simplification for Pre-trained Large Language Models [6.646510073473929]
本稿では,SlimCodeを提案する。SlimCodeは大規模言語モデルのための,モデルに依存しないコード単純化ソリューションである。 SlimCodeは、コード検索と要約におけるMRRおよびBLEUスコアの9.46%と5.15%の最先端技術を改善することができる。
論文参考訳（メタデータ） (2024-05-18T06:15:52Z)
Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文参考訳（メタデータ） (2024-03-09T09:04:53Z)
Automated Sizing and Training of Efficient Deep Autoencoders using Second Order Algorithms [0.46040036610482665]
一般化線形分類器の多段階学習法を提案する。検証エラーは不要な入力のプルーニングによって最小化される。所望の出力は、Ho-Kashyapルールに似た方法で改善される。
論文参考訳（メタデータ） (2023-08-11T16:48:31Z)
Quick Adaptive Ternary Segmentation: An Efficient Decoding Procedure For Hidden Markov Models [70.26374282390401]
ノイズの多い観測から元の信号(すなわち隠れ鎖)を復号することは、ほぼすべてのHMMに基づくデータ分析の主要な目標の1つである。本稿では,多対数計算複雑性において隠れた列を復号化するための分法であるQuick Adaptive Ternary(QATS)を提案する。
論文参考訳（メタデータ） (2023-05-29T19:37:48Z)
CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文参考訳（メタデータ） (2022-07-31T21:39:15Z)
Neural Execution Engines: Learning to Execute Subroutines [29.036699193820215]
本稿では, ソート, 最短経路, 最小スパンニング木などの共通アルゴリズムを構成する数値サブルーチンのレベルでの一般化問題について検討する。データを一般化するために、バイナリ表現で数値を符号化すると、加算や乗算のような下流のタスクで訓練されたリッチな構造で埋め込みされることを示す。
論文参考訳（メタデータ） (2020-06-15T01:51:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。