論文の概要: GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models
- arxiv url: http://arxiv.org/abs/2601.07632v2
- Date: Wed, 14 Jan 2026 02:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 14:49:41.179573
- Title: GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models
- Title(参考訳): GeoMotionGPT:大規模言語モデルを用いた幾何対応運動理解
- Authors: Zhankai Ye, Bofan Li, Yukai Jin, Shuoqiu Li, Wei Wang, Yanfu Zhang, Shangqian Gao, Xin Liu,
- Abstract要約: 両モジュラリティが統一幾何基底を共有する場合、アライメントが最も効果的であると主張する。
我々は、Gumbel-Softmaxを用いたデコーダのみの量子化器を用いて、微分可能なトレーニングとバランスの取れたコードブックの使用について検討する。
我々のフレームワークは現在の最先端手法よりも20%の性能向上を実現している。
- 参考スコア(独自算出の注目度): 23.159388800893964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discrete motion tokenization has recently enabled Large Language Models (LLMs) to serve as versatile backbones for motion understanding and motion-language reasoning. However, existing pipelines typically decouple motion quantization from semantic embedding learning, linking them solely via token IDs. This approach fails to effectively align the intrinsic geometry of the motion space with the embedding space, thereby hindering the LLM's capacity for nuanced motion reasoning. We argue that alignment is most effective when both modalities share a unified geometric basis. Therefore, instead of forcing the LLM to reconstruct the complex geometry among motion tokens from scratch, we present a novel framework that explicitly enforces orthogonality on both the motion codebook and the LLM embedding space, ensuring that their relational structures naturally mirror each other. Specifically, we employ a decoder-only quantizer with Gumbel-Softmax for differentiable training and balanced codebook usage. To bridge the modalities, we use a sparse projection that maps motion codes into the LLM embedding space while preserving orthogonality. Finally, a two-stage orthonormal regularization schedule enforces soft constraints during tokenizer training and LLM fine-tuning to maintain geometric alignment without hindering semantic adaptation. Extensive experiments on HumanML3D demonstrate that our framework achieves a 20% performance improvement over current state-of-the-art methods, validating that a unified geometric basis effectively empowers the LLM for nuanced motion reasoning.
- Abstract(参考訳): 離散的な動きトークン化により、Large Language Models (LLMs) は動き理解と動き言語推論のための汎用的なバックボーンとして機能する。
しかし、既存のパイプラインは通常、モーション量子化とセマンティック埋め込み学習を分離し、トークンIDを介してのみリンクする。
このアプローチは、運動空間の内在幾何学と埋め込み空間とを効果的に整合させることに失敗し、それによってLLMのニュアンス運動推論能力の妨げとなる。
両モジュラリティが統一幾何基底を共有する場合、アライメントが最も効果的であると主張する。
そこで我々は,LLMに運動トークン間の複雑な形状をスクラッチから再構築させるのではなく,動きコードブックとLLM埋め込み空間の両方に直交性を明示的に適用し,それらの関係構造が相互に自然にミラーリングされることを保証する新しい枠組みを提案する。
具体的には、Gumbel-Softmaxを用いたデコーダのみの量子化器を用いて、微分可能なトレーニングとバランスの取れたコードブックの使用について検討する。
モダリティをブリッジするために、直交性を維持しながら運動符号をLLM埋め込み空間にマッピングするスパースプロジェクションを用いる。
最後に、2段階の正則正規化スケジュールでは、トークンライザトレーニングとLLMファインチューニングの間、意味適応を妨げることなく幾何アライメントを維持するためにソフト制約を強制する。
HumanML3Dの広範にわたる実験により,我々のフレームワークは現在の最先端手法よりも20%の性能向上を実現し,統一幾何基底が,ニュアンスド・モーション・推論のためのLLMを効果的に活用できることが実証された。
関連論文リスト
- SpatialGeo:Boosting Spatial Reasoning in Multimodal LLMs via Geometry-Semantics Fusion [23.86761713752287]
MLLM(Multimodal large language model)は、画像および言語タスクにおいて大きな進歩を遂げている。
ほとんどのMLLMは、空間的配置を3次元空間で解釈し推論する限られた空間的推論能力に悩まされている。
幾何学と意味論の階層的融合に基づく新しい視覚エンコーダを提案し,空間認識型視覚埋め込みを生成する。
論文 参考訳(メタデータ) (2025-11-21T15:24:33Z) - FlexAC: Towards Flexible Control of Associative Reasoning in Multimodal Large Language Models [80.6268239673988]
マルチモーダルな大規模言語モデル(MLLM)は、忠実さと創造性の間に固有のトレードオフに直面します。
既存の方法には、この推論強度を調節する柔軟性がない。
本稿では,連想推論を柔軟に制御する機構を備えたMLLMを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:22:12Z) - ReaLM: Residual Quantization Bridging Knowledge Graph Embeddings and Large Language Models [18.720486146234077]
大言語モデル(LLM)は知識グラフ補完(KGC)の強力なパラダイムとして登場した。
我々は、KG埋め込みとLLMトークン化のギャップを埋める、新しく効果的なフレームワークであるReaLMを提案する。
本稿では,ReaLMが最先端性能を実現し,構造化知識と大規模言語モデルとの整合性を確認した。
論文 参考訳(メタデータ) (2025-10-10T04:36:13Z) - OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。
タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。
実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T13:57:55Z) - ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation [12.059517583878756]
本稿では,意味的に多様な環境に対する統一的な操作フレームワークReSem3Dを提案する。
本稿では,ReSem3Dがゼロショット条件下で多様な操作を行い,適応性と一般化性を示すことを示す。
論文 参考訳(メタデータ) (2025-07-24T10:07:31Z) - Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - CoMMIT: Coordinated Multimodal Instruction Tuning [90.1532838391285]
マルチモーダル大言語モデル(MLLM)は一般に、バックボーンLLMと非テキスト入力モードの特徴エンコーダ間の協調学習を含む。
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
本稿では,学習のバランスを定量的に測定できるマルチモーダルバランス係数を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。