論文の概要: Conditional Attribute Estimation with Autoregressive Sequence Models
- arxiv url: http://arxiv.org/abs/2605.14004v1
- Date: Wed, 13 May 2026 18:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.452905
- Title: Conditional Attribute Estimation with Autoregressive Sequence Models
- Title(参考訳): 自己回帰列モデルを用いた条件属性推定
- Authors: Erica Stutz, Giacomo Marino, Daniella Meeker, Qiao Liu, Andrew J. Loza,
- Abstract要約: Conditional Attribute Transformersは、次のトークン選択の確率と属性の値を共同で推定する新しい方法である。
提案手法は,スパース報酬タスクにおけるアートパフォーマンスの状態を達成し,属性確率をサンプリングよりも桁違いに高速に推定し,多言語タスクにおける自己回帰シーケンスモデルの復号化を導出する。
- 参考スコア(独自算出の注目度): 2.956641142618867
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative models are often trained with a next-token prediction objective, yet many downstream applications require the ability to estimate or control sequence-level properties. Next-token prediction can lead to overfitting of local patterns during training, underfitting of global structure, and requires significant downstream modifications or expensive sampling to guide or predict the global attributes of generated samples at inference time. Here, we introduce Conditional Attribute Transformers, a novel method for jointly estimating the next-token probability and the value of an attribute conditional on each potential next token selection. This framework enables three critical capabilities within a single forward pass, without modification of the input sequence: (1) per-token credit assignment across an entire sequence, by identifying how each token in a sequence is associated with an attribute's value; (2) counterfactual analysis, by quantifying attribute differences conditional on alternative next token choices; (3) steerable generation, by decoding sequences based on a combination of next-token and attribute likelihoods. Our approach achieves state of the art performance on sparse reward tasks, improves next-token prediction at sufficient model sizes, estimates attribute probabilities orders of magnitude faster than sampling, and can guide decoding of autoregressive sequence models on a range of language tasks.
- Abstract(参考訳): 生成モデルは、しばしば次世代の予測目標で訓練されるが、多くの下流アプリケーションは、シーケンスレベルの特性を推定または制御する能力を必要としている。
次に注意すべき予測は、トレーニング中の局所的なパターンの過度な適合、グローバルな構造の不適合、そして推論時に生成されたサンプルのグローバルな属性をガイドまたは予測するために、かなりの下流修正や高価なサンプリングを必要とする。
本稿では,次のトークン選択の確率と属性条件の値を共同で推定する新しい手法であるConditional Attribute Transformersを紹介する。
本フレームワークは,入力シーケンスを変更せずに,入力シーケンス内の3つの重要な機能を実現する。(1) シーケンス全体にわたって,シーケンス内の各トークンが属性の値にどのように関連しているかを識別すること,(2) 代替の次のトークン選択で条件付けられた属性差を定量化すること,(3) 次トークンと属性推定を組み合わせたシーケンスの復号化によるステアブル生成を実現する。
提案手法は,スパース報酬タスクにおける最先端性能を実現し,十分なモデルサイズでの次トーケン予測を改善し,属性確率をサンプリングよりも桁違いに高速に推定し,言語タスクにおける自己回帰列モデルの復号化を導出する。
関連論文リスト
- MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging [65.07273789940116]
本稿では,動的ゲノミクストークンと潜在トランスフォーマーをコンテキスト対応事前学習タスクで協調的に最適化する階層型アーキテクチャを提案する。
MergeDNAは3つの人気のあるDNAベンチマークと、微調整やゼロショット評価を伴う複数のマルチオミクスタスクにおいて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-17T19:27:41Z) - Pre-training Generative Recommender with Multi-Identifier Item Tokenization [78.87007819266957]
本稿では, MTGRecを用いて, 生成Recommender事前学習のためのトークンシーケンスデータを拡張する手法を提案する。
このアプローチには、マルチアイデンティティーアイテムトークン化とカリキュラムレコメンデータ事前トレーニングという、2つの重要なイノベーションがあります。
3つの公開ベンチマークデータセットに対する大規模な実験は、MTGRecが従来の推奨基準と生成推奨基準の両方を大きく上回っていることを示している。
論文 参考訳(メタデータ) (2025-04-06T08:03:03Z) - Enhancing Foundation Models for Time Series Forecasting via Wavelet-based Tokenization [74.3339999119713]
我々はウェーブレットベースのトークンーザを開発し、時間局所化周波数の空間でモデルが複雑な表現を直接学習できるようにする。
提案手法は,まず入力時系列をスケール・分解し,次に閾値を設定し,ウェーブレット係数を定量化し,最後に予測水平方向の係数を予測する自己回帰モデルを事前学習する。
論文 参考訳(メタデータ) (2024-12-06T18:22:59Z) - Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - σ-GPTs: A New Approach to Autoregressive Models [19.84252724050016]
出力に位置エンコーディングを追加するだけで、この順序をオンザフライ・イン・サンプルで変調できることを示す。
我々は,言語モデリング,パス解決,航空機の垂直速度予測など,様々な領域にわたる手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-15T08:22:47Z) - Complex Event Forecasting with Prediction Suffix Trees: Extended
Technical Report [70.7321040534471]
複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に人気が高まっている。
このような現象が実際にCERエンジンによって検出される前に、パターンがいつ発生するかを予測する方法が不足している。
複雑なイベント予測の問題に対処しようとする形式的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T09:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。