Fugu-MT 論文翻訳(概要): Eliciting Fine-Tuned Transformer Capabilities via Inference-Time Techniques

論文の概要: Eliciting Fine-Tuned Transformer Capabilities via Inference-Time Techniques

arxiv url: http://arxiv.org/abs/2506.08060v1
Date: Mon, 09 Jun 2025 08:37:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:40.260325
Title: Eliciting Fine-Tuned Transformer Capabilities via Inference-Time Techniques
Title（参考訳）: 推論時間による微調整変圧器機能の実現
Authors: Asankhaya Sharma,
Abstract要約: 大規模言語モデルは自然言語処理に変化をもたらしたが、教師付き微調整(SFT)は計算集約的のままである。本稿では,SFTにより得られた能力をベーストランスモデルにより近似できることを正式に証明する。これらの結果を、有限コンテキスト長と部分データセットアクセスを備えた実用的なシナリオに拡張する。
参考スコア（独自算出の注目度）: 1.14219428942199
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models have transformed natural language processing, yet supervised fine-tuning (SFT) remains computationally intensive. This paper formally proves that capabilities acquired through SFT can be approximated by a base transformer model using inference-time techniques, specifically in-context learning (ICL), without altering model parameters, under idealized assumptions including unbounded computational resources and access to the fine-tuning dataset. We extend these results to practical scenarios with finite context lengths and partial dataset access. For text generation tasks with fixed output length $l$, datasets of size $\mathrm{O}\left( \frac{m V}{\varepsilon^2} \log \frac{m}{\delta} \right)$ or, with bounded context, $\mathrm{O}\left( \frac{l \log V}{\varepsilon^2} \log \frac{1}{\delta} \right)$ suffice to approximate fine-tuned behavior across $m$ contexts within error $\varepsilon$, where $V$ is the vocabulary size and $\delta$ is the failure probability. For linear classification, datasets of size $\mathrm{O}\left( \frac{d}{\varepsilon} \right)$ or, with fixed context, $\mathrm{O}\left( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} \right)$ are sufficient, where $d$ is the input dimension. Grounded in the Turing completeness of transformers, these results provide a theoretical foundation for resource-efficient deployment of large language models, with practical techniques like retrieval-augmented generation bridging theory to real-world applications.
Abstract（参考訳）: 大規模言語モデルは自然言語処理に変化をもたらしたが、教師付き微調整(SFT)は計算集約的のままである。本稿では,非有界な計算資源や微調整データセットへのアクセスを含む理想的な仮定の下で,モデルパラメータを変更することなく,推論時間,特にコンテキスト内学習(ICL)を用いて,SFTによって得られた能力をベーストランスフォーマモデルで近似できることを正式に証明する。これらの結果を、有限コンテキスト長と部分データセットアクセスを備えた実用的なシナリオに拡張する。固定出力長$l$のテキスト生成タスクの場合、サイズ$\mathrm{O}\left( \frac{m V}{\varepsilon^2} \log \frac{m}{\delta} \right)$または境界付きコンテキストで、$\mathrm{O}\left( \frac{l \log V}{\varepsilon^2} \log \frac{1}{\delta} \right)$ suffice to almost fine-tuned behavior across $m$ contexts in error $\varepsilon$, $V$ is the vocabulary size and $\delta$ is the failure probability。線形分類では、$\mathrm{O}\left( \frac{d}{\varepsilon} \right)$または$\mathrm{O}\left( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} \right)$のデータセットは十分であり、$d$は入力次元である。変換器のチューリング完全性に基づいて、これらの結果は大規模言語モデルの資源効率向上のための理論的基盤を提供する。

関連論文リスト

Robust learning of halfspaces under log-concave marginals [6.852292115526837]
線形しきい値関数を学習し、境界体積$O(r+varepsilon)$の分類子を半径摂動$r$で返すアルゴリズムを与える。 dtildeO(1/varepsilon2)$の時間とサンプルの複雑さはブール回帰の複雑さと一致する。
論文参考訳（メタデータ） (2025-05-19T20:12:16Z)
Sign Operator for Coping with Heavy-Tailed Noise in Non-Convex Optimization: High Probability Bounds Under $(L_0, L_1)$-Smoothness [74.18546828528298]
SignSGD with Majority Votingは,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappaka ppakappa-1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappakappa -1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappappapa-1right,Kappaを用いて,複雑性の全範囲で堅牢に動作することを示す。
論文参考訳（メタデータ） (2025-02-11T19:54:11Z)
Learning Networks from Wide-Sense Stationary Stochastic Processes [7.59499154221528]
ここでの重要な推論問題は、ノード出力(ポテンシャル)からエッジ接続を学習することである。我々はWhittleの最大可能性推定器(MLE)を用いて時間相関サンプルから$Last$のサポートを学習する。 MLE問題は厳密な凸であり、ユニークな解であることを示す。
論文参考訳（メタデータ） (2024-12-04T23:14:00Z)
Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題ですペアデータとペアデータの両方を統合する新しいパラダイムを提案する。提案手法は任意の誤差で理論上真の条件分布を復元可能であることを示す。
論文参考訳（メタデータ） (2024-10-03T16:12:59Z)
Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。 SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文参考訳（メタデータ） (2024-06-03T17:56:58Z)
Policy Zooming: Adaptive Discretization-based Infinite-Horizon Average-Reward Reinforcement Learning [2.2984209387877628]
無限水平平均逆強化学習(RL)におけるリプシッツ MDP について検討した。 for $d_texteff. = dPhi_z+2$ for model-free algorithmtextitPZRL-MF and $d_texteff. = 2d_mathcalS + dPhi_z + 3$ for
論文参考訳（メタデータ） (2024-05-29T06:18:09Z)
On Understanding Attention-Based In-Context Learning for Categorical Data [49.40350941996942]
我々は,アテンションブロックで構成されるネットワークを開発し,各ブロックに自己注意層を付加し,その後にクロスアテンション層と関連するスキップ接続を付加する。このモデルは、カテゴリー的観察を伴う文脈内推論のための多段階機能的GD推論を正確に行うことができる。
論文参考訳（メタデータ） (2024-05-27T15:03:21Z)
Overview of Physics-Informed Machine Learning Inversion of Geophysical Data [1.5108390071719444]
物理インフォームド・機械学習(PIML)による物理データのインバージョンのための4種類のアルゴリズムについて概説する。ウェイトの選択はlambda_i$で、NN操作は4つの異なるPIMLアルゴリズムのうちの1つを決定する。
論文参考訳（メタデータ） (2023-10-12T08:10:31Z)
Regret-Optimal Federated Transfer Learning for Kernel Regression with Applications in American Option Pricing [8.723136784230906]
本稿では、中央プランナーがデータセットにアクセス可能なフェデレーショントランスファー学習のための最適反復スキームを提案する。我々の目標は、生成されたパラメータの累積偏差を$thetai(t)_t=0T$で最小化することである。後悔と最適化のアルゴリズム内で対称性を活用することで, $mathcalO(Np2)$少なめの初等演算を伴って動作する,ほぼ後悔のいく$_optimalを開発する。
論文参考訳（メタデータ） (2023-09-08T19:17:03Z)
Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文参考訳（メタデータ） (2022-10-15T09:22:22Z)
Supervised Training of Conditional Monge Maps [107.78770597815242]
最適輸送(OT)理論は、多くの可能な選択の中から確率測度を他のものにマッピングする最も効率的な方法を定義し、選択する一般的な原理を記述している。本研究では,コンテキスト変数に条件付きOTマップの族を推定するマルチタスク手法であるCondOTを紹介する。本研究では,CondOTの遺伝的・治療的摂動の任意の組み合わせが単一細胞に与える影響を推測する能力を示す。
論文参考訳（メタデータ） (2022-06-28T19:34:44Z)
A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文参考訳（メタデータ） (2022-02-23T16:10:23Z)
An Algorithm for Learning Smaller Representations of Models With Scarce Data [0.0]
データセットが小さすぎるか、完全に代表的でない状況下で、二項分類問題を解くための欲求的アルゴリズムを提案する。それは、ゆるやかな精度の制約、反復的なハイパーパラメータプルーニング手順、新しいデータを生成するために使われる関数といった訓練されたモデルに依存している。
論文参考訳（メタデータ） (2020-10-15T19:17:51Z)
Hybrid Stochastic-Deterministic Minibatch Proximal Gradient: Less-Than-Single-Pass Optimization with Nearly Optimal Generalization [83.80460802169999]
HSDMPGは、学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成可能であることを示す。損失係数について、HSDMPGは学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成できることを示す。
論文参考訳（メタデータ） (2020-09-18T02:18:44Z)
Convergence of Sparse Variational Inference in Gaussian Processes Regression [29.636483122130027]
計算コストが$mathcalO(log N)2D(log N)2)$の手法を推論に利用できることを示す。
論文参考訳（メタデータ） (2020-08-01T19:23:34Z)
Few-Shot Learning via Learning the Representation, Provably [115.7367053639605]
本稿では,表現学習による少数ショット学習について検討する。 1つのタスクは、ターゲットタスクのサンプルの複雑さを減らすために、$T$ソースタスクと$n_1$データを使用して表現を学習する。
論文参考訳（メタデータ） (2020-02-21T17:30:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。