論文の概要: Advancing Sequential Numerical Prediction in Autoregressive Models
- arxiv url: http://arxiv.org/abs/2505.13077v1
- Date: Mon, 19 May 2025 13:11:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.603297
- Title: Advancing Sequential Numerical Prediction in Autoregressive Models
- Title(参考訳): 自己回帰モデルにおける逐次数値予測の促進
- Authors: Xiang Fei, Jinghui Lu, Qi Sun, Hao Feng, Yanjie Wang, Wei Shi, An-Lan Wang, Jingqun Tang, Can Huang,
- Abstract要約: 本稿では,このギャップに対処するため,数値トークン積分損失(NTIL)を提案する。
NTIL は、(1) トークンレベル、(2) 数値間の順序関係を維持するためにアース・モーバーの距離(EMD)を延ばし、(2) シーケンスレベル、(2) 予測されたシーケンスと実際のシーケンス間の全体的な不一致を罰する。
- 参考スコア(独自算出の注目度): 26.759068834681738
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Autoregressive models have become the de facto choice for sequence generation tasks, but standard approaches treat digits as independent tokens and apply cross-entropy loss, overlooking the coherent structure of numerical sequences. This paper introduces Numerical Token Integrity Loss (NTIL) to address this gap. NTIL operates at two levels: (1) token-level, where it extends the Earth Mover's Distance (EMD) to preserve ordinal relationships between numerical values, and (2) sequence-level, where it penalizes the overall discrepancy between the predicted and actual sequences. This dual approach improves numerical prediction and integrates effectively with LLMs/MLLMs. Extensive experiments show significant performance improvements with NTIL.
- Abstract(参考訳): 自己回帰モデルは、シーケンス生成タスクのデファクト選択となっているが、標準的なアプローチでは、桁を独立トークンとして扱い、数値列のコヒーレントな構造を見越して、クロスエントロピー損失を適用している。
本稿では,このギャップに対処するため,数値トークン積分損失(NTIL)を提案する。
NTIL は、(1) トークンレベル、(2) 数値間の順序関係を維持するためにアース・モーバーの距離(EMD)を延ばし、(2) シーケンスレベル、(2) 予測されたシーケンスと実際のシーケンス間の全体的な不一致を罰する。
この2つのアプローチは数値予測を改善し、LLM/MLLMと効果的に統合する。
大規模な実験ではNTILの性能が大幅に向上した。
関連論文リスト
- Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Symbolic Autoencoding for Self-Supervised Sequence Learning [24.71036683224435]
$Sigma$AEは、限られた並列データとともに豊富な非並列データのパワーを利用する、自己管理型のフレームワークである。
この結果から,$Sigma$AEは最小並列データであっても,トランスダクションタスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-16T11:04:31Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Bi-Granularity Contrastive Learning for Post-Training in Few-Shot Scene [10.822477939237459]
トークンレベルとシーケンスレベルの両方のコントラスト学習を統合するために,ポストトレーニングのためのコントラストマスク言語モデリング(CMLM)を提案する。
CMLMは、データ拡張を必要とせずに、数ショット設定で、最近のいくつかのポストトレーニングメソッドを超越している。
論文 参考訳(メタデータ) (2021-06-04T08:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。