論文の概要: Fast SceneScript: Accurate and Efficient Structured Language Model via Multi-Token Prediction
- arxiv url: http://arxiv.org/abs/2512.05597v1
- Date: Fri, 05 Dec 2025 10:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.993601
- Title: Fast SceneScript: Accurate and Efficient Structured Language Model via Multi-Token Prediction
- Title(参考訳): Fast SceneScript:マルチトークン予測による高精度かつ効率的な構造化言語モデル
- Authors: Ruihong Yin, Xuepeng Shi, Oleksandr Bailo, Marco Manfredi, Theo Gevers,
- Abstract要約: 我々は,新しい構造化言語モデルであるFast SceneScriptを紹介した。
提案手法では,マルチトークン予測(MTP)を用いて自動回帰反復数を削減し,推論を著しく高速化する。
我々は、Fast SceneScriptがデコーダの推論ステップ毎に最大9つのトークンを生成できることを示す。
- 参考スコア(独自算出の注目度): 31.512139444227405
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent perception-generalist approaches based on language models have achieved state-of-the-art results across diverse tasks, including 3D scene layout estimation, via unified architecture and interface. However, these approaches rely on autoregressive next-token prediction, which is inherently slow. In this work, we introduce Fast SceneScript, a novel structured language model for accurate and efficient 3D scene layout estimation. Our method employs multi-token prediction (MTP) to reduce the number of autoregressive iterations and significantly accelerate inference. While MTP improves speed, unreliable token predictions can significantly reduce accuracy. To filter out unreliable tokens, we adapt self-speculative decoding (SSD) for structured language models and introduce confidence-guided decoding (CGD) with an improved scoring mechanism for token reliability. Furthermore, we design a parameter-efficient mechanism that reduces the parameter overhead of MTP. Extensive experiments on the ASE and Structured3D benchmarks demonstrate that Fast SceneScript can generate up to 9 tokens per decoder inference step without compromising accuracy, while adding only $\sim7.5\%$ additional parameters.
- Abstract(参考訳): 言語モデルに基づく近年の認識一般のアプローチは、統一アーキテクチャとインタフェースにより、3Dシーンレイアウト推定を含む様々なタスクにまたがって最先端の結果を得た。
しかし、これらのアプローチは本質的に遅い自動回帰的次トーケン予測に依存している。
本研究では,高精度な3次元シーンレイアウト推定のための構造化言語モデルであるFast SceneScriptを紹介する。
提案手法では,マルチトークン予測(MTP)を用いて自動回帰反復数を削減し,推論を著しく高速化する。
MTPは速度を向上するが、信頼性の低いトークン予測は精度を大幅に低下させる。
信頼できないトークンをフィルタリングするために、構造化言語モデルに自己投機的復号化(SSD)を適用し、信頼誘導復号化(CGD)を導入し、トークン信頼性を向上させるためのスコアリング機構を改良した。
さらに,MPPのパラメータオーバーヘッドを低減するパラメータ効率のメカニズムを設計する。
ASEとStructured3Dベンチマークに関する大規模な実験によると、Fast SceneScriptはデコーダの推論ステップ毎に最大9つのトークンを生成することができる。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - SparkUI-Parser: Enhancing GUI Perception with Robust Grounding and Parsing [13.521180435948791]
本稿ではGUI知覚のための新しいエンドツーエンドフレームワークを提案する。
確率ベース離散モデリングの代わりに、座標の連続モデリングを行う。
これにより、離散出力特性に固有の制限を効果的に緩和する。
論文 参考訳(メタデータ) (2025-09-05T08:24:12Z) - Set Block Decoding is a Language Model Inference Accelerator [48.061016901663386]
SBD(Set Block Decoding)は,NTP(Next token Prediction)とマスク付きトークン予測(MATP)を単一のアーキテクチャに統合することにより,生成を高速化する,シンプルで柔軟なパラダイムである。
SBDは、従来の加速法との大きな違いである複数の、必ずしも連続しない未来のトークンを並列にサンプリングすることを可能にする。
我々は,SBDにより,生成に必要な前方通過回数を3~5倍削減し,同等のNTPトレーニングを達成できることを実証した。
論文 参考訳(メタデータ) (2025-09-04T13:02:39Z) - Beyond the Next Token: Towards Prompt-Robust Zero-Shot Classification via Efficient Multi-Token Prediction [12.92060812931049]
プロンプトの微妙な変化は、モデルの性能に重大な違いをもたらす可能性がある。
複数位置にわたるトークン確率を予測する新しい手法であるPlaceholding Parallel Prediction (P3)を提案する。
実験では精度が向上し、プロンプト間の標準偏差が最大98%減少した。
論文 参考訳(メタデータ) (2025-04-04T04:39:51Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-07-23T09:04:13Z) - Don't Parse, Insert: Multilingual Semantic Parsing with Insertion Based
Decoding [10.002379593718471]
成功した構文は、入力発話をシステムで容易に理解できる動作に変換する。
複雑な解析タスクに対して、最先端の手法は、解析を直接生成するためのシーケンスモデルへの自己回帰シーケンスに基づいている。
論文 参考訳(メタデータ) (2020-10-08T01:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。