論文の概要: LaMoGen: Language to Motion Generation Through LLM-Guided Symbolic Inference
- arxiv url: http://arxiv.org/abs/2603.11605v1
- Date: Thu, 12 Mar 2026 06:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.935904
- Title: LaMoGen: Language to Motion Generation Through LLM-Guided Symbolic Inference
- Title(参考訳): LaMoGen: LLM-Guided Symbolic Inferenceによる動き生成言語
- Authors: Junkun Jiang, Ho Yin Au, Jingyu Xiang, Jie Chen,
- Abstract要約: 本稿では,ラパノテーションシステムの適応と拡張により発達した動き表現であるラパノテーション(LanLite)を紹介する。
ブラックボックスのテキストモーション埋め込みとは異なり、LabanLiteは各原子体のアクションをテキストテンプレートと組み合わせた個別のLabanシンボルとしてエンコードする。
ラモーゲン(LaMoGen, Text-to-LabanLite-to-Motion Generation)は, 大規模言語モデルにおいて, 記号的推論による動き列の生成を可能にするフレームワークである。
- 参考スコア(独自算出の注目度): 7.101824215756715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human motion is highly expressive and naturally aligned with language, yet prevailing methods relying heavily on joint text-motion embeddings struggle to synthesize temporally accurate, detailed motions and often lack explainability. To address these limitations, we introduce LabanLite, a motion representation developed by adapting and extending the Labanotation system. Unlike black-box text-motion embeddings, LabanLite encodes each atomic body-part action (e.g., a single left-foot step) as a discrete Laban symbol paired with a textual template. This abstraction decomposes complex motions into interpretable symbol sequences and body-part instructions, establishing a symbolic link between high-level language and low-level motion trajectories. Building on LabanLite, we present LaMoGen, a Text-to-LabanLite-to-Motion Generation framework that enables large language models (LLMs) to compose motion sequences through symbolic reasoning. The LLM interprets motion patterns, relates them to textual descriptions, and recombines symbols into executable plans, producing motions that are both interpretable and linguistically grounded. To support rigorous evaluation, we introduce a Labanotation-based benchmark with structured description-motion pairs and three metrics that jointly measure text-motion alignment across symbolic, temporal, and harmony dimensions. Experiments demonstrate that LaMoGen establishes a new baseline for both interpretability and controllability, outperforming prior methods on our benchmark and two public datasets. These results highlight the advantages of symbolic reasoning and agent-based design for language-driven motion synthesis.
- Abstract(参考訳): 人間の動きは表現力が高く、言語と自然に一致しているが、関節のテキスト・モーションの埋め込みに大きく依存する手法は、時間的に正確で詳細な動きを合成するのに苦労し、しばしば説明性に欠ける。
これらの制約に対処するために,ラパノテーションシステムを適応して拡張した動き表現であるラパノテーションを導入する。
ブラックボックスのテキストモーション埋め込みとは異なり、LabanLiteはテキストテンプレートと組み合わせた個別のLabanシンボルとして、各アトミックボディ部分アクション(例えば、左足のステップ)をエンコードする。
この抽象化は、複雑な動きを解釈可能なシンボルシーケンスとボディパート命令に分解し、ハイレベル言語と低レベルモーショントラジェクトリの間のシンボルリンクを確立する。
LabanLite上に構築されたLaMoGenは,大規模言語モデル(LLM)がシンボル推論によって動作シーケンスを構成することを可能にするテキストからラベルへの変換生成フレームワークである。
LLMは、動作パターンを解釈し、それらとテキストの記述を関連付け、シンボルを実行可能な計画に再結合し、解釈可能かつ言語的に基礎付けられた動作を生成する。
厳密な評価を支援するために、構造化された記述-動き対と、記号的、時間的、調和的な次元をまたいだテキスト-動きのアライメントを共同で測定する3つの指標を備えたラプラノテーションベースのベンチマークを導入する。
実験によると、LaMoGenは解釈可能性と制御性の両方のための新しいベースラインを確立し、ベンチマークと2つの公開データセットで先行メソッドよりも優れています。
これらの結果は,言語駆動動作合成における記号的推論とエージェントベース設計の利点を浮き彫りにした。
関連論文リスト
- MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - LLaMo: Scaling Pretrained Language Models for Unified Motion Understanding and Generation with Continuous Autoregressive Tokens [19.167250154665812]
LLaMoは、モダリティ固有のMixture-of-Transformersアーキテクチャを通じて、事前訓練された大規模言語モデルを拡張するフレームワークである。
人間の動きを因果連続潜伏空間にエンコードし、デコーダのみのバックボーンで次のトーケン予測パラダイムを維持する。
実験により,LLaMoは一般的な設定で高忠実なテキスト・ツー・モーション生成とモーション・トゥ・テキストキャプションを実現することが示された。
論文 参考訳(メタデータ) (2026-02-12T20:02:21Z) - Beyond Gloss: A Hand-Centric Framework for Gloss-Free Sign Language Translation [18.544615425772903]
手話翻訳(SLT)は、視覚情報と言語情報の間のモダリティギャップを埋めることを必要とする課題である。
我々は,ビデオLLMの時間認識推論機能を活用する新しいGloss-free SLTフレームワークであるtextbfBeyondGlossを紹介する。
BeyondtextはPhoenixT14とCSL-Dailyベンチマークで最先端のパフォーマンスを実現し、提案したフレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2025-07-31T14:06:07Z) - ReAlign: Bilingual Text-to-Motion Generation via Step-Aware Reward-Guided Alignment [48.894439350114396]
本稿では,バイリンガル・テキスト・トゥ・モーション生成モデルにおいて重要なベンチマークとなるバイリンガル・ヒューマン・モーション・データセットであるBiHumanML3Dを提案する。
また,バイリンガル・モーション・ディフュージョン・モデル (BiMD) を提案する。
提案手法は,既存の最先端手法と比較して,テキスト・モーションアライメントと動作品質を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-05-08T06:19:18Z) - KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
現在のヒューマンモーション合成フレームワークは、グローバルなアクション記述に依存している。
ランのような単一の粗い記述は、速度の変動、手足の位置決め、運動力学といった詳細を捉えるのに失敗する。
階層的な記述可能な動作表現に基づいて構築された統合フレームワークであるKinMoを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。