論文の概要: How Do Language Models Compose Functions?
- arxiv url: http://arxiv.org/abs/2510.01685v1
- Date: Thu, 02 Oct 2025 05:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.008851
- Title: How Do Language Models Compose Functions?
- Title(参考訳): 言語モデルは関数を構成するか?
- Authors: Apoorv Khandelwal, Ellie Pavlick,
- Abstract要約: 大規模言語モデル(LLM)は、構成的タスクを解く能力がますます高まっているようである。
フィードフォワード LLM が 2-hop のファクトリコールタスクをどのように解決するかを,$g(f(x))$ と表すことができる。
- 参考スコア(独自算出の注目度): 32.88477392011441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) appear to be increasingly capable of solving compositional tasks, it is an open question whether they do so using compositional mechanisms. In this work, we investigate how feedforward LLMs solve two-hop factual recall tasks, which can be expressed compositionally as $g(f(x))$. We first confirm that modern LLMs continue to suffer from the "compositionality gap": i.e. their ability to compute both $z = f(x)$ and $y = g(z)$ does not entail their ability to compute the composition $y = g(f(x))$. Then, using logit lens on their residual stream activations, we identify two processing mechanisms, one which solves tasks $\textit{compositionally}$, computing $f(x)$ along the way to computing $g(f(x))$, and one which solves them $\textit{directly}$, without any detectable signature of the intermediate variable $f(x)$. Finally, we find that which mechanism is employed appears to be related to the embedding space geometry, with the idiomatic mechanism being dominant in cases where there exists a linear mapping from $x$ to $g(f(x))$ in the embedding spaces. We fully release our data and code at: https://github.com/apoorvkh/composing-functions .
- Abstract(参考訳): 大規模言語モデル(LLM)は、構成的タスクを解く能力がますます高まっているように見えるが、それらが構成的メカニズムを使って実現されるかどうかには疑問が持たれている。
そこで本研究では,フィードフォワード LLM を用いて,f(f(x))$ と合成できる2ホップのファクトリコールタスクの解法について検討する。
例えば、$z = f(x)$ と $y = g(z)$ の両方を計算する能力は、合成を$y = g(f(x))$ で計算する能力を必要としない。
次に、残りのストリームアクティベーションにロジットレンズを用いることで、タスクを$\textit{compositionally}$, computing $f(x)$, computing $g(f(x))$, and which is solves $\textit{directly}$, without any detectionable signature of the intermediate variable $f(x)$という2つの処理メカニズムを識別する。
最後に、どの機構が用いられるかは埋め込み空間幾何学と関連しているようで、埋め込み空間に$x$から$g(f(x))$の線型写像が存在する場合、慣用的なメカニズムが支配的である。
https://github.com/apoorvkh/composing-functions。
関連論文リスト
- Proving the Limited Scalability of Centralized Distributed Optimization via a New Lower Bound Construction [57.93371273485736]
我々は、すべての労働者が同一の分布にアクセスする均質な(すなわちd.d.)場合であっても、すべての労働者が非バイアス付き境界 LDeltaepsilon2,$$$$$ のポリ対数的により良いポリ対数を求める集中型分散学習環境を考える。
論文 参考訳(メタデータ) (2025-06-30T13:27:39Z) - Eliciting Fine-Tuned Transformer Capabilities via Inference-Time Techniques [1.14219428942199]
大規模言語モデルは自然言語処理に変化をもたらしたが、教師付き微調整(SFT)は計算集約的のままである。
本稿では,SFTにより得られた能力をベーストランスモデルにより近似できることを正式に証明する。
これらの結果を、有限コンテキスト長と部分データセットアクセスを備えた実用的なシナリオに拡張する。
論文 参考訳(メタデータ) (2025-06-09T08:37:19Z) - Model-agnostic basis functions for the 2-point correlation function of dark matter in linear theory [0.0]
幅広い種類の宇宙モデルにおいて、バリオン音響振動特性の近傍に$xi_rm lin(r)$を記述する基底 $mathcalB$ を求める。
モデルに依存しないBAO解析における基礎関数の使用は、統計的に有意な利益をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-10-28T18:00:01Z) - Guarantees for Nonlinear Representation Learning: Non-identical Covariates, Dependent Data, Fewer Samples [24.45016514352055]
我々は、関数クラス$mathcal F times Mathcal G$から、T+1$関数$f_star(t) circ g_star$を学習する際のサンプル複雑度について研究する。
タスク数が$T$になるにつれて、サンプル要件とリスクバウンドの両方が$r$次元回帰に収束することを示す。
論文 参考訳(メタデータ) (2024-10-15T03:20:19Z) - LevAttention: Time, Space, and Streaming Efficient Algorithm for Heavy Attentions [54.54897832889028]
任意の$K$に対して、$n$とは独立に「普遍集合」$Uサブセット[n]$が存在し、任意の$Q$と任意の行$i$に対して、大きな注目スコアが$A_i,j$ in row $i$ of $A$は全て$jin U$を持つことを示す。
我々は、視覚変換器のスキームの利点を実証的に示し、トレーニング中に我々の普遍的なセットを使用する新しいモデルのトレーニング方法を示した。
論文 参考訳(メタデータ) (2024-10-07T19:47:13Z) - Learning sum of diverse features: computational hardness and efficient gradient-based training for ridge combinations [40.77319247558742]
目的関数 $f_*:mathbbRdtomathbbR$ を加法構造で学習する際の計算複雑性について検討する。
2層ニューラルネットワークの勾配学習により,$f_*$の大規模なサブセットを効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-06-17T17:59:17Z) - On Understanding Attention-Based In-Context Learning for Categorical Data [49.40350941996942]
我々は,アテンションブロックで構成されるネットワークを開発し,各ブロックに自己注意層を付加し,その後にクロスアテンション層と関連するスキップ接続を付加する。
このモデルは、カテゴリー的観察を伴う文脈内推論のための多段階機能的GD推論を正確に行うことができる。
論文 参考訳(メタデータ) (2024-05-27T15:03:21Z) - Agnostically Learning Multi-index Models with Queries [54.290489524576756]
本稿では,ガウス分布下での非依存学習の課題に対するクエリアクセスのパワーについて検討する。
クエリアクセスは、MIMを不可知的に学習するためのランダムな例よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2023-12-27T15:50:47Z) - Simplifying and Understanding State Space Models with Diagonal Linear
RNNs [56.33053691749856]
本研究は、離散化ステップを解消し、バニラ対角線形RNNに基づくモデルを提案する。
概念的にはるかに単純であるにもかかわらず、$mathrmDLR$は以前提案したSSMと同じくらいのパフォーマンスを示す。
また、合成シーケンス・ツー・シーケンス・タスクのスイートによって、SSMとアテンションベースモデルの表現性も特徴付ける。
論文 参考訳(メタデータ) (2022-12-01T18:53:06Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Optimal Gradient Sliding and its Application to Distributed Optimization
Under Similarity [121.83085611327654]
積 $r:=p + q$, ここで$r$は$mu$-strong convex類似性である。
エージェントの通信やローカルコールにマスターされた問題を解決する方法を提案する。
提案手法は$mathcalO(sqrtL_q/mu)$法よりもはるかにシャープである。
論文 参考訳(メタデータ) (2022-05-30T14:28:02Z) - On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。
多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文 参考訳(メタデータ) (2020-06-20T20:33:59Z) - On the Modularity of Hypernetworks [103.1147622394852]
構造化対象関数の場合、ハイパーネットワークにおけるトレーニング可能なパラメータの総数は、標準ニューラルネットワークのトレーニング可能なパラメータの数や埋め込み法よりも桁違いに小さいことを示す。
論文 参考訳(メタデータ) (2020-02-23T22:51:52Z) - Few-Shot Learning via Learning the Representation, Provably [115.7367053639605]
本稿では,表現学習による少数ショット学習について検討する。
1つのタスクは、ターゲットタスクのサンプルの複雑さを減らすために、$T$ソースタスクと$n_1$データを使用して表現を学習する。
論文 参考訳(メタデータ) (2020-02-21T17:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。