論文の概要: σ-GPTs: A New Approach to Autoregressive Models
- arxiv url: http://arxiv.org/abs/2404.09562v2
- Date: Mon, 1 Jul 2024 06:46:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 14:29:42.348959
- Title: σ-GPTs: A New Approach to Autoregressive Models
- Title(参考訳): σ-GPTs: 自己回帰モデルの新しいアプローチ
- Authors: Arnaud Pannatier, Evann Courdier, François Fleuret,
- Abstract要約: 出力に位置エンコーディングを追加するだけで、この順序をオンザフライ・イン・サンプルで変調できることを示す。
我々は,言語モデリング,パス解決,航空機の垂直速度予測など,様々な領域にわたる手法の評価を行った。
- 参考スコア(独自算出の注目度): 19.84252724050016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive models, such as the GPT family, use a fixed order, usually left-to-right, to generate sequences. However, this is not a necessity. In this paper, we challenge this assumption and show that by simply adding a positional encoding for the output, this order can be modulated on-the-fly per-sample which offers key advantageous properties. It allows for the sampling of and conditioning on arbitrary subsets of tokens, and it also allows sampling in one shot multiple tokens dynamically according to a rejection strategy, leading to a sub-linear number of model evaluations. We evaluate our method across various domains, including language modeling, path-solving, and aircraft vertical rate prediction, decreasing the number of steps required for generation by an order of magnitude.
- Abstract(参考訳): GPTファミリーのような自己回帰モデルは、配列を生成するために固定順序(通常は左から右)を使用する。
しかし、これは必要ではない。
本稿では、この仮定に挑戦し、出力に位置エンコーディングを加えるだけで、この順序をオンザフライで変調できることを示す。
これはトークンの任意の部分集合のサンプリングと条件付けを可能にし、また拒絶戦略に従って1ショットの複数のトークンを動的にサンプリングすることを可能にする。
我々は,言語モデリング,パスソーシング,航空機の垂直速度予測など,様々な領域にわたる手法の評価を行い,生成に必要なステップ数を桁違いに削減した。
関連論文リスト
- Conformal Generative Modeling with Improved Sample Efficiency through Sequential Greedy Filtering [55.15192437680943]
生成モデルは出力に対する厳密な統計的保証を欠いている。
厳密な統計的保証を満たす予測セットを生成する逐次共形予測法を提案する。
このことは、高い確率で予測セットが少なくとも1つの許容可能な(または有効な)例を含むことを保証している。
論文 参考訳(メタデータ) (2024-10-02T15:26:52Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Approximate Message Passing for the Matrix Tensor Product Model [8.206394018475708]
本稿では,行列テンソル積モデルに対する近似メッセージパッシング(AMP)アルゴリズムの提案と解析を行う。
非可分関数に対する収束定理に基づいて、非可分関数に対する状態発展を証明する。
我々は、この状態進化結果を利用して、関心の信号の回復に必要な十分な条件を提供する。
論文 参考訳(メタデータ) (2023-06-27T16:03:56Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Partial sequence labeling with structured Gaussian Processes [8.239028141030621]
部分列ラベリングのための構造付きガウス過程を提案する。
予測の不確実性を符号化し、モデル選択やハイパーパラメータ学習に余分な労力を要しない。
いくつかのシーケンスラベリングタスクで評価を行い,実験結果から提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-09-20T00:56:49Z) - Calibrating Over-Parametrized Simulation Models: A Framework via
Eligibility Set [3.862247454265944]
厳密な頻繁な統計的保証を満たす校正手法を開発するための枠組みを開発する。
本手法は,書籍市場シミュレータのキャリブレーションへの応用を含む,いくつかの数値例で実証する。
論文 参考訳(メタデータ) (2021-05-27T00:59:29Z) - Parallel and Flexible Sampling from Autoregressive Models via Langevin
Dynamics [13.097161185372151]
ホワイトノイズでシーケンスを初期化し,Langevin dynamicsによって定義されたマルコフ連鎖に従ってシーケンスのグローバルなログライクな状態を示すサンプリング手順を提案する。
これらの手法を視覚および聴覚領域の自己回帰モデルに適用し,オーディオソース分離,超解像,インペインティングの競争結果と比較した。
論文 参考訳(メタデータ) (2021-05-17T21:07:02Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Feature Transformation Ensemble Model with Batch Spectral Regularization
for Cross-Domain Few-Shot Classification [66.91839845347604]
特徴抽出ネットワークの後に多様な特徴変換を行うことにより,アンサンブル予測モデルを提案する。
我々は,事前学習中に特徴行列の特異値を抑制するために,バッチスペクトル正規化項を用い,モデルの一般化能力を向上させる。
提案したモデルは、ターゲット領域で微調整して、数発の分類に対処することができる。
論文 参考訳(メタデータ) (2020-05-18T05:31:04Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。