Fugu-MT 論文翻訳(概要): Non-Asymptotic Length Generalization

論文の概要: Non-Asymptotic Length Generalization

arxiv url: http://arxiv.org/abs/2506.03085v2
Date: Fri, 06 Jun 2025 07:47:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:43.060168
Title: Non-Asymptotic Length Generalization
Title（参考訳）: 非漸近長一般化
Authors: Thomas Chen, Tengyu Ma, Zhiyuan Li,
Abstract要約: 理想化された設定において、様々な関数のクラスに対する長さ一般化の証明可能な保証を提供する。本稿では,最小複雑度補間器学習アルゴリズムが最適長複雑性を実現することを示す。
参考スコア（独自算出の注目度）: 26.982645261213847
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Length generalization is the ability of a learning algorithm to learn a hypothesis which generalizes to longer inputs than the inputs in the training set. In this paper, we provide provable guarantees of length generalization for various classes of functions in an idealized setting. First, we formalize the framework of non-asymptotic length generalization, which requires a computable upper bound for the minimum input length that guarantees length generalization, as a function of the complexity of ground-truth function under some given complexity measure. We refer to this minimum input length to length generalize as length complexity. We show the Minimum-Complexity Interpolator learning algorithm achieves optimal length complexity. We further show that whether a function class admits non-asymptotic length generalization is equivalent to the decidability of its language equivalence problem, which implies that there is no computable upper bound for the length complexity of Context-Free Grammars. On the positive side, we show that the length complexity of Deterministic Finite Automata is $2n - 2$ where $n$ is the number of states of the ground-truth automaton. Our main results are upper bounds of length complexity for a subset of a transformer-related function class called C-RASP (Yang & Chiang, 2024). We show that the length complexity of 1-layer C-RASP functions is $O(T^2)$ when the ground-truth function has precision $T$, and that the length complexity of 2-layer C-RASP functions is $O(T^{O(K)})$ when the ground-truth function has precision $T$ and $K$ heads.
Abstract（参考訳）: 長さ一般化は、学習アルゴリズムが学習セットの入力よりも長い入力に一般化する仮説を学習する能力である。本稿では,様々な関数のクラスに対して,理想化された設定で長さ一般化の証明可能な保証を提供する。まず、与えられた複雑性尺度の下での接地構造関数の複雑性の関数として、長さの一般化を保証する最小入力長に対して計算可能な上限を必要とする非漸近長一般化の枠組みを定式化する。この最小入力長を、長さ複雑性として一般化する。本稿では,最小複雑度補間器学習アルゴリズムが最適長複雑性を実現することを示す。さらに,非漸近長一般化を許容する関数クラスが言語同値問題の決定可能性と同値であることを示す。正の面では、決定論的有限オートマトンの長さの複雑さが2n - 2$であることを示す。我々の主な結果は、C-RASP(Yang & Chiang, 2024)と呼ばれる変圧器関連関数クラスの部分集合に対する長さ複雑性の上限である。 1層C-RASP関数の長さ複雑性が$O(T^2)$,2層C-RASP関数の長さ複雑性が$O(T^{O(K)}$,2層C-RASP関数の長さ複雑性が$O(T^{O(K)}$であることを示す。

関連論文リスト

Ehrenfeucht-Haussler Rank and Chain of Thought [51.33559894954108]
関数の階数$f$は、単層トランスフォーマーデコーダで要求される思考の連鎖の最小値に対応することを示す。また、ブール列における1の$k$-thの発生位置を同定する問題を解析し、$k$CoTステップが必要であることを証明した。
論文参考訳（メタデータ） (2025-01-22T16:30:58Z)
Quantum computational complexity of matrix functions [2.7488316163114823]
2つの原始問題の計算複雑性について検討する。単項関数、チェビシェフ関数、時間発展関数、逆関数の4つの関数を考える。各関数に対する両問題のBQP完全形式を同定する。
論文参考訳（メタデータ） (2024-10-17T18:00:03Z)
Complexity-Theoretic Implications of Multicalibration [8.315801422499863]
多精度予測器はより強い条件を満たす:それらはコレクションの各セットで校正される。この複雑性理論的正則性レンマは、異なる領域に影響を及ぼすことが知られている。すべての函数(その硬さによらず)が不随伴なハードコア集合の小さな集合を持つことが示される。
論文参考訳（メタデータ） (2023-12-28T18:53:21Z)
Efficiently Learning One-Hidden-Layer ReLU Networks via Schur Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文参考訳（メタデータ） (2023-07-24T14:37:22Z)
Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文参考訳（メタデータ） (2023-02-22T20:21:25Z)
Best of Both Worlds: Practical and Theoretically Optimal Submodular Maximization in Parallel [17.462968952951883]
主アルゴリズムは、独立した関心を持つ可能性のある2つのコンポーネントから組み立てられる。 LINEARSEQの変種は、文献のどのアルゴリズムよりも小さい$O(log(n))$の適応複雑性を持つ。
論文参考訳（メタデータ） (2021-11-15T17:10:40Z)
On Function Approximation in Reinforcement Learning: Optimism in the Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。私たちの後悔の限界はエピソードの数とは無関係です。
論文参考訳（メタデータ） (2020-11-09T18:32:22Z)
Hybrid Stochastic-Deterministic Minibatch Proximal Gradient: Less-Than-Single-Pass Optimization with Nearly Optimal Generalization [83.80460802169999]
HSDMPGは、学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成可能であることを示す。損失係数について、HSDMPGは学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成できることを示す。
論文参考訳（メタデータ） (2020-09-18T02:18:44Z)
Refined bounds for algorithm configuration: The knife-edge of dual class approximability [94.83809668933021]
トレーニングセットが、トレーニングセット上でのパラメータの平均メトリックのパフォーマンスが、予想される将来的なパフォーマンスに最も近いことを保証するために、どの程度の規模が必要かを調査する。この近似が L-無限ノルムの下で成り立つなら、強いサンプル複雑性境界を与えることができる。我々は、コンピュータ科学において最も強力なツールの一つである整数プログラミングの文脈において、我々の限界を実証的に評価する。
論文参考訳（メタデータ） (2020-06-21T15:32:21Z)
Quantum Algorithm for Finding the Optimal Variable Ordering for Binary Decision Diagrams [0.0]
順序付き二項決定図(OBDD)は、ブール関数を表す有向非巡回グラフである。本稿では,最小のOBDDを生成する量子アルゴリズムの存在を実証することにより,量子コンピュータのさらなる高速化が可能であることを示す。
論文参考訳（メタデータ） (2019-09-27T12:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。