論文の概要: Implicit Models: Expressive Power Scales with Test-Time Compute
- arxiv url: http://arxiv.org/abs/2510.03638v1
- Date: Sat, 04 Oct 2025 02:49:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.170123
- Title: Implicit Models: Expressive Power Scales with Test-Time Compute
- Title(参考訳): インプリシットモデル:テスト時間計算による表現力尺度
- Authors: Jialin Liu, Lisang Ding, Stanley Osher, Wotao Yin,
- Abstract要約: 入出力モデルは、新しいモデルクラスであり、単一のパラメータブロックを固定点に反復することで出力を計算します。
我々はこのギャップを表現力の非パラメトリック解析を通して研究する。
幅広い種類の暗黙的モデルに対して、このプロセスはテスト時間計算によるモデルの表現力尺度を可能にすることを証明している。
- 参考スコア(独自算出の注目度): 17.808479563949074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Implicit models, an emerging model class, compute outputs by iterating a single parameter block to a fixed point. This architecture realizes an infinite-depth, weight-tied network that trains with constant memory, significantly reducing memory needs for the same level of performance compared to explicit models. While it is empirically known that these compact models can often match or even exceed larger explicit networks by allocating more test-time compute, the underlying mechanism remains poorly understood. We study this gap through a nonparametric analysis of expressive power. We provide a strict mathematical characterization, showing that a simple and regular implicit operator can, through iteration, progressively express more complex mappings. We prove that for a broad class of implicit models, this process lets the model's expressive power scale with test-time compute, ultimately matching a much richer function class. The theory is validated across three domains: image reconstruction, scientific computing, and operations research, demonstrating that as test-time iterations increase, the complexity of the learned mapping rises, while the solution quality simultaneously improves and stabilizes.
- Abstract(参考訳): 入出力モデルは、新しいモデルクラスであり、単一のパラメータブロックを固定点に反復することで出力を計算します。
このアーキテクチャは、一定のメモリでトレーニングし、明示的なモデルと比較して、同じレベルのパフォーマンスのメモリ要求を著しく低減する無限深度重み付きネットワークを実現する。
これらのコンパクトモデルが、より多くのテスト時間計算を割り当てることで、より大きな明示的なネットワークにマッチしたり、超えたりすることが実証的に知られているが、基礎となるメカニズムはよく分かっていない。
我々はこのギャップを表現力の非パラメトリック解析を通して研究する。
我々は厳密な数学的特徴付けを提供し、単純かつ正則な暗黙作用素が反復を通して、より複雑な写像を漸進的に表現できることを示す。
幅広い種類の暗黙的モデルに対して、このプロセスはモデルの表現力尺度とテスト時間計算が一致し、最終的にはよりリッチな関数クラスと一致することを証明します。
この理論は、画像再構成、科学計算、オペレーション研究の3つの領域にまたがって検証され、テストタイムの反復が増加するにつれて、学習されたマッピングの複雑さが増大し、解の品質は同時に改善し、安定することを示した。
関連論文リスト
- Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls [54.57326125204404]
言語モデルはますます能力が高くなっているが、多桁乗算という一見単純なタスクではまだ失敗している。
直観的連鎖を通して乗法をうまく学習するモデルをリバースエンジニアリングすることでなぜ研究する。
論文 参考訳(メタデータ) (2025-09-30T19:03:26Z) - DiffuMatch: Category-Agnostic Spectral Diffusion Priors for Robust Non-rigid Shape Matching [53.39693288324375]
ネットワーク内正規化と関数型マップトレーニングの両方をデータ駆動方式に置き換えることができることを示す。
まず、スコアベース生成モデルを用いてスペクトル領域における関数写像の生成モデルを訓練する。
次に、得られたモデルを利用して、新しい形状コレクション上の基底真理汎関数写像の構造的特性を促進する。
論文 参考訳(メタデータ) (2025-07-31T16:44:54Z) - Random Sparse Lifts: Construction, Analysis and Convergence of finite sparse networks [17.487761710665968]
本稿では,パラメータの数が増えると,勾配流による学習が任意に低損失に達するような,ニューラルネットワークの大規模クラスを定義する枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-10T12:52:00Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Fast Hierarchical Games for Image Explanations [78.16853337149871]
本稿では,シェープリー係数の階層的拡張に基づく画像分類のモデル非依存な説明法を提案する。
他のShapleyベースの説明手法とは異なり、h-Shapはスケーラブルで近似を必要とせずに計算できる。
本手法は,合成データセット,医用画像シナリオ,一般コンピュータビジョン問題において,一般的なシャプリーベースおよび非サプリーベース手法と比較した。
論文 参考訳(メタデータ) (2021-04-13T13:11:02Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Seq2Tens: An Efficient Representation of Sequences by Low-Rank Tensor
Projections [11.580603875423408]
時系列、ビデオ、テキストなどの時系列データは分析が難しい。
この中心にあるのは非可換性(英語版)であり、列の要素を並べ替えることがその意味を完全に変えることができるという意味でである。
このような依存を捉えるために、古典的な数学的対象、テンソル代数を用いる。
論文 参考訳(メタデータ) (2020-06-12T09:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。