論文の概要: Unlocking Pretrained LLMs for Motion-Related Multimodal Generation: A Fine-Tuning Approach to Unify Diffusion and Next-Token Prediction
- arxiv url: http://arxiv.org/abs/2503.06119v1
- Date: Sat, 08 Mar 2025 08:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:46:59.437639
- Title: Unlocking Pretrained LLMs for Motion-Related Multimodal Generation: A Fine-Tuning Approach to Unify Diffusion and Next-Token Prediction
- Title(参考訳): 運動関連マルチモーダル生成のためのロック解除事前LLM:拡散と次点予測を統一するための微調整アプローチ
- Authors: Shinichi Tanaka, Zhao Wang, Yoichi Kato, Jun Ohya,
- Abstract要約: MoMugは拡散に基づく連続運動生成とモデル固有の自己回帰的な離散テキスト予測機能を統合する。
MoMugはFIDを38%改善し、7つのメトリクスの平均精度を16.61%向上させた。
- 参考スコア(独自算出の注目度): 2.997267793609097
- License:
- Abstract: In this paper, we propose a unified framework that leverages a single pretrained LLM for Motion-related Multimodal Generation, referred to as MoMug. MoMug integrates diffusion-based continuous motion generation with the model's inherent autoregressive discrete text prediction capabilities by fine-tuning a pretrained LLM. This enables seamless switching between continuous motion output and discrete text token prediction within a single model architecture, effectively combining the strengths of both diffusion- and LLM-based approaches. Experimental results show that, compared to the most recent LLM-based baseline, MoMug improves FID by 38% and mean accuracy across seven metrics by 16.61% on the text-to-motion task. Additionally, it improves mean accuracy across eight metrics by 8.44% on the text-to-motion task. To the best of our knowledge, this is the first approach to integrate diffusion- and LLM-based generation within a single model for motion-related multimodal tasks while maintaining low training costs. This establishes a foundation for future advancements in motion-related generation, paving the way for high-quality yet cost-efficient motion synthesis.
- Abstract(参考訳): 本稿では、MoMugと呼ばれるモーション関連マルチモーダル生成のための1つの事前学習LLMを利用する統一フレームワークを提案する。
MoMugは拡散に基づく連続運動生成とモデル固有の自己回帰的離散テキスト予測機能を統合する。
これにより、連続運動出力と離散テキストトークン予測を単一のモデルアーキテクチャでシームレスに切り替えることができ、拡散とLLMベースのアプローチの長所を効果的に組み合わせることができる。
実験の結果、最近のLCMベースラインと比較して、MoMugはFIDを38%改善し、7つのメトリクスの平均精度は16.61%向上した。
さらに、8つのメトリクスの平均精度を8.44%向上させる。
我々の知る限り、これは低トレーニングコストを維持しつつ、モーション関連のマルチモーダルタスクのための単一のモデルに拡散およびLLMベースの生成を統合するための最初のアプローチである。
これにより、モーション関連生成の今後の進歩の基礎が確立され、高品質だがコスト効率のよいモーション合成の道が開かれた。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。
スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。
また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文 参考訳(メタデータ) (2024-08-28T15:52:23Z) - LiveMind: Low-latency Large Language Models with Simultaneous Inference [9.795240210326346]
大規模言語モデル(LLM)推論のための新しい低レイテンシ推論フレームワークであるLiveMindを紹介する。
計算処理を入力フェーズに再配置することで、レイテンシを大幅に削減できる。
このフレームワークは、モデルに対するストリーミングインプットの可視性を管理し、不完全なユーザインプットから推論したり、追加コンテンツを待つことができる。
論文 参考訳(メタデータ) (2024-06-20T13:52:30Z) - Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection [8.683288452838136]
大規模言語モデル(LLM)は人間のような会話を約束しているが、主にテキストデータに基づいて事前訓練されている。
本稿では,事前学習した単調なLDMを効率よく適用し,これまで目に見えなかった新しいモダリティを消費するFLORA手法を提案する。
デバイス指向音声検出では、FLoRAを用いることで、テキストのみのアプローチに比べて、マルチモーダルLLMは22%の誤差率(EER)の相対的な低減を実現している。
論文 参考訳(メタデータ) (2024-06-13T22:52:07Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。
自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文 参考訳(メタデータ) (2024-01-12T06:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。