論文の概要: In-Context Algebra
- arxiv url: http://arxiv.org/abs/2512.16902v1
- Date: Thu, 18 Dec 2025 18:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.241987
- Title: In-Context Algebra
- Title(参考訳): インコンテキスト代数
- Authors: Eric Todd, Jannik Brinkmann, Rohit Gandikota, David Bau,
- Abstract要約: 本稿では, トークンが意味を持つ変数であるシーケンス上で, トランスフォーマーを学習して演算を解く際に生じるメカニズムについて検討する。
我々は、特定の代数群要素への記号の割り当てが、ある列から別の列へ変化する新しいタスクを考案する。
- 参考スコア(独自算出の注目度): 25.99258547745488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the mechanisms that arise when transformers are trained to solve arithmetic on sequences where tokens are variables whose meaning is determined only through their interactions. While prior work has found that transformers develop geometric embeddings that mirror algebraic structure, those previous findings emerge from settings where arithmetic-valued tokens have fixed meanings. We devise a new task in which the assignment of symbols to specific algebraic group elements varies from one sequence to another. Despite this challenging setup, transformers achieve near-perfect accuracy on the task and even generalize to unseen algebraic groups. We develop targeted data distributions to create causal tests of a set of hypothesized mechanisms, and we isolate three mechanisms models consistently learn: commutative copying where a dedicated head copies answers, identity element recognition that distinguishes identity-containing facts, and closure-based cancellation that tracks group membership to constrain valid answers. Complementary to the geometric representations found in fixed-symbol settings, our findings show that models develop symbolic reasoning mechanisms when trained to reason in-context with variables whose meanings are not fixed.
- Abstract(参考訳): 本稿では, トークンが意味を持つ変数であるシーケンス上で, トランスフォーマーを学習して演算を解く際に生じるメカニズムについて検討する。
従来の研究では、変換器は代数構造を反映した幾何学的埋め込みを開発するが、これらの前の発見は算術的に評価されたトークンが固定された意味を持つ設定から現れる。
我々は、特定の代数群要素への記号の割り当てが、ある列から別の列へ変化する新しいタスクを考案する。
この挑戦的なセットアップにもかかわらず、トランスフォーマーはタスクにおいてほぼ完璧な精度を達成し、目に見えない代数群にも一般化する。
我々は,仮説化されたメカニズムの集合の因果的テストを作成するために,対象とするデータ分布を開発し,専用の頭部が答えをコピーする可換コピー,アイデンティティを含む事実を識別する識別要素認識,グループメンバーシップを追跡して有効な回答を制限するクロージャベースのキャンセルという3つのメカニズムを一貫して学習する。
固定記号設定における幾何学的表現の補完として, 意味が固定されていない変数に対して, 文脈内推論を訓練した場合に, モデルが記号的推論機構を発達させることが示唆された。
関連論文リスト
- Provable In-Context Learning of Nonlinear Regression with Transformers [66.99048542127768]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。
最近の研究はICLの背後にあるトレーニングのダイナミクスを積極的に探求しており、その多くは比較的単純なタスクに重点を置いている。
本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文 参考訳(メタデータ) (2025-07-28T00:09:28Z) - Initialization is Critical to Whether Transformers Fit Composite Functions by Reasoning or Memorizing [10.206921909332006]
トランスフォーマーは様々なタスクにわたって印象的な能力を示してきたが、構成問題におけるパフォーマンスは議論の的となっている。
パラメータ初期化尺度は、モデルが推論(推論に基づく)解を学習するかどうかを決定する上で重要な役割を果たす。
さらに、推論(推論に基づく)ソリューションは、複雑さのバイアスが低く、単一のアンカーに対する個々のマッピングを学習できる重要な要素である、と仮定する。
論文 参考訳(メタデータ) (2024-05-08T20:23:24Z) - Self-Supervised Learning for Group Equivariant Neural Networks [75.62232699377877]
群同変ニューラルネットワーク(英: Group equivariant Neural Network)は、入力の変換で通勤する構造に制限されたモデルである。
自己教師型タスクには、同変プリテキストラベルと異変コントラスト損失という2つの概念を提案する。
標準画像認識ベンチマークの実験では、同変ニューラルネットワークが提案された自己教師型タスクを利用することを示した。
論文 参考訳(メタデータ) (2023-03-08T08:11:26Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Equivariant Disentangled Transformation for Domain Generalization under
Combination Shift [91.38796390449504]
ドメインとラベルの組み合わせは、トレーニング中に観察されるのではなく、テスト環境に現れる。
我々は、同型の概念、同値性、および整合性の定義に基づく結合シフト問題の一意的な定式化を提供する。
論文 参考訳(メタデータ) (2022-08-03T12:31:31Z) - Homomorphism Autoencoder -- Learning Group Structured Representations from Observed Transitions [51.71245032890532]
本研究では,世界に作用するエージェントが,それを修飾する動作と整合した感覚情報の内部表現を学習できるようにする手法を提案する。
既存の作業とは対照的に、我々のアプローチはグループの事前の知識を必要とせず、エージェントが実行可能なアクションのセットを制限しない。
論文 参考訳(メタデータ) (2022-07-25T11:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。