論文の概要: Algorithmic Phase Transitions in Language Models: A Mechanistic Case Study of Arithmetic
- arxiv url: http://arxiv.org/abs/2412.07386v1
- Date: Tue, 10 Dec 2024 10:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:40.678220
- Title: Algorithmic Phase Transitions in Language Models: A Mechanistic Case Study of Arithmetic
- Title(参考訳): 言語モデルにおけるアルゴリズム的相転移--算術の力学ケーススタディ
- Authors: Alan Sun, Ethan Sun, Warren Shepard,
- Abstract要約: 大規模な言語モデルはタスクをゼロショットできるが、他のタスクはできない。
アルゴリズムの不安定性は、言語モデルのゼロショット性能の低下に寄与する要因である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Zero-shot capabilities of large language models make them powerful tools for solving a range of tasks without explicit training. It remains unclear, however, how these models achieve such performance, or why they can zero-shot some tasks but not others. In this paper, we shed some light on this phenomenon by defining and investigating algorithmic stability in language models -- changes in problem-solving strategy employed by the model as a result of changes in task specification. We focus on a task where algorithmic stability is needed for generalization: two-operand arithmetic. Surprisingly, we find that Gemma-2-2b employs substantially different computational models on closely related subtasks, i.e. four-digit versus eight-digit addition. Our findings suggest that algorithmic instability may be a contributing factor to language models' poor zero-shot performance across certain logical reasoning tasks, as they struggle to abstract different problem-solving strategies and smoothly transition between them.
- Abstract(参考訳): 大きな言語モデルのゼロショット機能により、明示的なトレーニングなしに、さまざまなタスクを解決できる強力なツールが提供される。
しかし、これらのモデルがそのようなパフォーマンスを達成する方法や、なぜタスクをゼロショットできるのかは定かではない。
本稿では,タスク仕様の変更の結果,言語モデルにおけるアルゴリズム的安定性 - モデルが採用する問題解決戦略の変化 - を定義し,検討することによって,この現象にいくつかの光を当てた。
本稿では,アルゴリズムの安定性が一般化に必要なタスクである2オペランド算術に焦点をあてる。
意外なことに、Gemma-2-2bは、密接に関連するサブタスク、すなわち4桁と8桁の加算に対して、かなり異なる計算モデルを採用している。
この結果から,アルゴリズムの不安定性は,ある論理的推論タスクにおける言語モデルのゼロショット性能の低下に寄与する要因である可能性が示唆された。
関連論文リスト
- Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Task Arithmetic Through The Lens Of One-Shot Federated Learning [3.8230727103887943]
Task Arithmeticは、複数のモデルの機能をひとつのモデルに組み合わせることを可能にするモデルマージ技術である。
タスク算術は、フェデレートラーニングにおいてよく使われるアルゴリズムと数学的に等価であることを示す。
フェデレーテッド・ラーニング(Federated Learning)のアルゴリズムを応用して,タスク算術の有効性を向上する。
論文 参考訳(メタデータ) (2024-11-27T18:53:41Z) - A resource-efficient model for deep kernel learning [0.0]
精度の低下を最小限に抑えた学習計算の高速化には,様々なアプローチがある。
本稿では,演算子の分解とネットワークの分解を併用したモデルレベルの分解手法について述べる。
得られたアルゴリズムの精度とスケーラビリティの両面から実現可能性解析を行う。
論文 参考訳(メタデータ) (2024-10-13T17:11:42Z) - Re-Tuning: Overcoming the Compositionality Limits of Large Language Models with Recursive Tuning [44.910762928636565]
本稿では,大規模言語モデルを用いた合成課題の解法を提案する。
我々の手法であるRe-Tuningは、問題をサブプロブレムに分解し、それらのサブプロブレムを解き、結果を組み合わせるためにモデルを調整する。
論文 参考訳(メタデータ) (2024-07-05T18:02:28Z) - Modeling Boundedly Rational Agents with Latent Inference Budgets [56.24971011281947]
エージェントの計算制約を明示的にモデル化する潜在推論予算モデル(L-IBM)を導入する。
L-IBMは、最適なアクターの多様な集団のデータを使ってエージェントモデルを学ぶことができる。
我々は,L-IBMが不確実性の下での意思決定のボルツマンモデルに適合しているか,あるいは上回っていることを示す。
論文 参考訳(メタデータ) (2023-12-07T03:55:51Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z) - Invariant Causal Mechanisms through Distribution Matching [86.07327840293894]
本研究では、因果的視点と不変表現を学習するための新しいアルゴリズムを提供する。
実験により,このアルゴリズムは様々なタスク群でうまく動作し,特にドメインの一般化における最先端のパフォーマンスを観察する。
論文 参考訳(メタデータ) (2022-06-23T12:06:54Z) - Thinking Aloud: Dynamic Context Generation Improves Zero-Shot Reasoning
Performance of GPT-2 [6.037255578530709]
動的問題解明は,推論と自然言語推論のタスクにおいて,gpt-2のゼロショット性能を大幅に改善することを示す。
特に、元の問題記述に最も忠実な説明は、精度を最大24%向上させる可能性がある。
論文 参考訳(メタデータ) (2021-03-24T07:33:25Z) - Learning outside the Black-Box: The pursuit of interpretable models [78.32475359554395]
本稿では,任意の連続ブラックボックス関数の連続的大域的解釈を生成するアルゴリズムを提案する。
我々の解釈は、その芸術の以前の状態から飛躍的な進歩を表している。
論文 参考訳(メタデータ) (2020-11-17T12:39:44Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。