論文の概要: Universal Skeleton Understanding via Differentiable Rendering and MLLMs
- arxiv url: http://arxiv.org/abs/2603.18003v1
- Date: Wed, 18 Mar 2026 17:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.877663
- Title: Universal Skeleton Understanding via Differentiable Rendering and MLLMs
- Title(参考訳): 微分レンダリングとMLLMによるユニバーサル骨格理解
- Authors: Ziyi Wang, Peiming Li, Xinshun Wang, Yang Tang, Kai-Kuang Ma, Mengyuan Liu,
- Abstract要約: SkeletonLLMは任意の骨格配列をMLLMのネイティブビジュアルモダリティに変換することで普遍的な骨格理解を実現する。
パイプラインはエンドツーエンドで微分可能であるため、MLLMグラデーションは直接レンダリングをガイドしてタスク不変のビジュアルトークンを生成することができる。
- 参考スコア(独自算出の注目度): 50.776811193752856
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal large language models (MLLMs) exhibit strong visual-language reasoning, yet remain confined to their native modalities and cannot directly process structured, non-visual data such as human skeletons. Existing methods either compress skeleton dynamics into lossy feature vectors for text alignment, or quantize motion into discrete tokens that generalize poorly across heterogeneous skeleton formats. We present SkeletonLLM, which achieves universal skeleton understanding by translating arbitrary skeleton sequences into the MLLM's native visual modality. At its core is DrAction, a differentiable, format-agnostic renderer that converts skeletal kinematics into compact image sequences. Because the pipeline is end-to-end differentiable, MLLM gradients can directly guide the rendering to produce task-informative visual tokens. To further enhance reasoning capabilities, we introduce a cooperative training strategy: Causal Reasoning Distillation transfers structured, step-by-step reasoning from a teacher model, while Discriminative Finetuning sharpens decision boundaries between confusable actions. SkeletonLLM demonstrates strong generalization on diverse tasks including recognition, captioning, reasoning, and cross-format transfer -- suggesting a viable path for applying MLLMs to non-native modalities. Code will be released upon acceptance.
- Abstract(参考訳): MLLM(Multimodal large language model)は、強力な視覚言語推論を示すが、ネイティブなモダリティに限られており、人間の骨格のような非視覚的データを直接処理することはできない。
既存の方法は、テキストアライメントのための欠落した特徴ベクトルに骨格力学を圧縮するか、不均一な骨格形式で不均一に一般化する離散トークンに運動を量子化する。
我々は、任意の骨格配列をMLLMのネイティブな視覚的モダリティに変換することで、普遍的な骨格理解を実現するSkeletonLLMを提案する。
コアとなるDrActionは、骨格キネマティクスをコンパクトな画像シーケンスに変換する、微分可能でフォーマットに依存しないレンダラーである。
パイプラインはエンドツーエンドで微分可能であるため、MLLMグラデーションは直接レンダリングをガイドしてタスク不変のビジュアルトークンを生成することができる。
因果推論 (Causal Reasoning Distillation) は教師モデルからの段階的推論を構造化し, 識別ファインタニング(disriminative Finetuning)は不利な行動間の決定境界を鋭くする。
SkeletonLLMは、認識、キャプション、推論、クロスフォーマット転送を含む多様なタスクを強く一般化している。
コードは受理時にリリースされる。
関連論文リスト
- Analyzing Finetuning Representation Shift for Multimodal LLMs Steering [56.710375516257876]
隠れた状態を解釈可能な視覚的概念とテキスト的概念にマッピングすることを提案する。
これにより、オリジナルモデルや微調整モデルからのシフトなど、特定のセマンティックダイナミクスをより効率的に比較することが可能になります。
また,これらの変化を捉えるためにシフトベクトルを用いることを実証する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Vision-Language Meets the Skeleton: Progressively Distillation with Cross-Modal Knowledge for 3D Action Representation Learning [20.34477942813382]
スケルトンに基づく行動表現学習は、骨格配列を符号化することで人間の行動を理解し理解することを目的としている。
クロスモーダル・コントラッシブ・ラーニングに基づく新しいスケルトンベースのトレーニング・フレームワークを提案する。
提案手法は,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-05-31T03:40:15Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - LAC: Latent Action Composition for Skeleton-based Action Segmentation [21.797658771678066]
骨格に基づくアクションセグメンテーションでは、トリミングされていないビデオの中で構成可能なアクションを認識する必要がある。
現在のアプローチでは、まずスケルトン配列から局所的な視覚的特徴を抽出し、時間モデルでそれらを処理し、フレームワイズアクションを分類することでこの問題を分離している。
骨格をベースとしたアクションセグメンテーションのための合成構成可能な動作から学習することを目的とした,新しい自己教師型フレームワークであるLatent Action composition (LAC)を提案する。
論文 参考訳(メタデータ) (2023-08-28T11:20:48Z) - SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence
Pre-training [110.55093254677638]
我々はSkeleton Sequence Learning(SSL)という,効率的なスケルトンシーケンス学習フレームワークを提案する。
本論文では,SkeletonMAEという非対称なグラフベースのエンコーダデコーダ事前学習アーキテクチャを構築する。
我々のSSLは、さまざまなデータセットにまたがってうまく一般化し、最先端の自己教師型スケルトンベースのアクション認識手法よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T13:33:11Z) - SimMC: Simple Masked Contrastive Learning of Skeleton Representations
for Unsupervised Person Re-Identification [63.903237777588316]
SimMC(Simple Masked Contrastive Learning)フレームワークを提案する。
具体的には、各骨格配列内の骨格の特徴を完全に活用するために、まずマスク付きプロトタイプコントラスト学習(MPC)方式を考案する。
そこで我々は,サブシーケンス間のシーケンス内パターンの整合性を捉えるために,マスク付きシーケンス内コントラスト学習(MIC)を提案する。
論文 参考訳(メタデータ) (2022-04-21T00:19:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。