論文の概要: Language-Guided Transformer Tokenizer for Human Motion Generation
- arxiv url: http://arxiv.org/abs/2602.08337v1
- Date: Mon, 09 Feb 2026 07:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.101241
- Title: Language-Guided Transformer Tokenizer for Human Motion Generation
- Title(参考訳): 言語誘導型トランスフォーマー・トケナイザによる人体運動生成
- Authors: Sheng Yan, Yong Wang, Xin Du, Junsong Yuan, Mengyuan Liu,
- Abstract要約: 我々は,言語誘導トークン化(LG-Tok)と呼ぶ,効率的な動作トークン化を実現するために言語を活用することを提案する。
LG-Tokは、自然言語をトークン化段階での動作と整合させ、コンパクトでハイレベルな意味表現をもたらす。
HumanML3D と Motion-X 生成ベンチマークでは、LG-Tok は 0.542 と 0.582 のTop-1 スコアを達成し、最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 47.02119018246404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we focus on motion discrete tokenization, which converts raw motion into compact discrete tokens--a process proven crucial for efficient motion generation. In this paradigm, increasing the number of tokens is a common approach to improving motion reconstruction quality, but more tokens make it more difficult for generative models to learn. To maintain high reconstruction quality while reducing generation complexity, we propose leveraging language to achieve efficient motion tokenization, which we term Language-Guided Tokenization (LG-Tok). LG-Tok aligns natural language with motion at the tokenization stage, yielding compact, high-level semantic representations. This approach not only strengthens both tokenization and detokenization but also simplifies the learning of generative models. Furthermore, existing tokenizers predominantly adopt convolutional architectures, whose local receptive fields struggle to support global language guidance. To this end, we propose a Transformer-based Tokenizer that leverages attention mechanisms to enable effective alignment between language and motion. Additionally, we design a language-drop scheme, in which language conditions are randomly removed during training, enabling the detokenizer to support language-free guidance during generation. On the HumanML3D and Motion-X generation benchmarks, LG-Tok achieves Top-1 scores of 0.542 and 0.582, outperforming state-of-the-art methods (MARDM: 0.500 and 0.528), and with FID scores of 0.057 and 0.088, respectively, versus 0.114 and 0.147. LG-Tok-mini uses only half the tokens while maintaining competitive performance (Top-1: 0.521/0.588, FID: 0.085/0.071), validating the efficiency of our semantic representations.
- Abstract(参考訳): 本稿では, 高速な動き生成に不可欠なプロセスである, 動きをコンパクトな離散トークンに変換する動き離散トークン化に焦点をあてる。
このパラダイムでは、トークンの数を増やすことは、運動再構成の品質を改善するための一般的なアプローチであるが、より多くのトークンが生成モデルの学習を困難にしている。
生成複雑性を低減しつつ高い再構成品質を維持するため,言語を用いた効率的な動作トークン化を提案し,LG-Tok(Language-Guided Tokenization)と呼ぶ。
LG-Tokは、自然言語をトークン化段階での動作と整合させ、コンパクトでハイレベルな意味表現をもたらす。
このアプローチはトークン化とデトケン化の両方を強化するだけでなく、生成モデルの学習も単純化する。
さらに、既存のトークン化器は主に畳み込みアーキテクチャを採用しており、その局所受容分野はグローバル言語指導を支援するのに苦労している。
そこで本研究では,言語と動きの効果的なアライメントを実現するために,注意機構を活用するトランスフォーマーベースのTokenizerを提案する。
さらに、学習中に言語条件をランダムに除去する言語ドロップ方式を設計し、生成中にデトケナイザが言語自由誘導をサポートできるようにする。
HumanML3D と Motion-X の生成ベンチマークでは、LG-Tok は 0.542 と 0.582 の Top-1 スコアを達成し、それぞれ 0.114 と 0.147 に対して FID スコアは 0.057 と 0.088 である。
LG-Tok-miniは競争性能を維持しながらトークンの半分しか使用していない(Top-1:0.521/0.588, FID:0.085/0.071)。
関連論文リスト
- REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization [130.46612643194973]
reARはトークン単位の正規化目標を導入する単純なトレーニング戦略です。
ImageNetでは、gFIDを3.02から1.86に削減し、標準化ベースのトークンーザを使用してISを316.9に改善している。
高度なトークン化器に適用すると、177Mパラメータしか持たない1.42のgFIDが達成され、その性能はより大きな最先端拡散モデル(675M)と一致する。
論文 参考訳(メタデータ) (2025-10-06T02:48:13Z) - SupraTok: Cross-Boundary Tokenization for Enhanced Language Model Performance [1.9336815376402718]
トークン化は、自然言語処理の根本的かつ未発見のボトルネックである。
サブワードセグメンテーションを再現する新しいトークン化アーキテクチャであるSupraTokを提案する。
提案手法は,英語のトークン化効率を31%向上させる。
論文 参考訳(メタデータ) (2025-08-16T00:54:20Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Tokenization Standards for Linguistic Integrity: Turkish as a Benchmark [0.29687381456163997]
トークン化はNLPの基本的な前処理ステップであり、大きな言語モデルが構文、形態素合成、意味構造をキャプチャする能力に直接影響を及ぼす。
本稿では,形態的にリッチで低リソースな言語における課題に対処する,トークン化戦略を評価するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T21:47:49Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Enriching Non-Autoregressive Transformer with Syntactic and
SemanticStructures for Neural Machine Translation [54.864148836486166]
本稿では,言語の明示的な構文構造と意味構造を非自己回帰トランスフォーマーに組み込むことを提案する。
我々のモデルは、最先端の非自己回帰モデルと比較して翻訳品質を保ちながら、はるかに高速な速度を実現している。
論文 参考訳(メタデータ) (2021-01-22T04:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。