論文の概要: Human-in-Context: Unified Cross-Domain 3D Human Motion Modeling via In-Context Learning
- arxiv url: http://arxiv.org/abs/2508.10897v1
- Date: Thu, 14 Aug 2025 17:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.449337
- Title: Human-in-Context: Unified Cross-Domain 3D Human Motion Modeling via In-Context Learning
- Title(参考訳): ヒューマン・イン・コンテクスト:イン・コンテクスト・ラーニングによる統合型クロス・ドメイン・ヒューマン・モーション・モデリング
- Authors: Mengyuan Liu, Xinshun Wang, Zhongbin Fang, Deheng Ye, Xia Li, Tao Tang, Songtao Wu, Xiangtai Li, Ming-Hsuan Yang,
- Abstract要約: 単一プロセスを通じて統合ドメインモデルをトレーニングするための新しい設定を提案する。
最初にPose-in-Context(PiC)を紹介した。これはコンテキスト内学習を活用して、ポーズ中心のクロスドメインモデルを作成する。
そこで我々は、モーダル性、タスク、データセットの一般化を拡大するPiCの拡張であるHuman-in-Context(HiC)を提案する。
- 参考スコア(独自算出の注目度): 64.30639042094548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to model 3D human motion across domains, where a single model is expected to handle multiple modalities, tasks, and datasets. Existing cross-domain models often rely on domain-specific components and multi-stage training, which limits their practicality and scalability. To overcome these challenges, we propose a new setting to train a unified cross-domain model through a single process, eliminating the need for domain-specific components and multi-stage training. We first introduce Pose-in-Context (PiC), which leverages in-context learning to create a pose-centric cross-domain model. While PiC generalizes across multiple pose-based tasks and datasets, it encounters difficulties with modality diversity, prompting strategy, and contextual dependency handling. We thus propose Human-in-Context (HiC), an extension of PiC that broadens generalization across modalities, tasks, and datasets. HiC combines pose and mesh representations within a unified framework, expands task coverage, and incorporates larger-scale datasets. Additionally, HiC introduces a max-min similarity prompt sampling strategy to enhance generalization across diverse domains and a network architecture with dual-branch context injection for improved handling of contextual dependencies. Extensive experimental results show that HiC performs better than PiC in terms of generalization, data scale, and performance across a wide range of domains. These results demonstrate the potential of HiC for building a unified cross-domain 3D human motion model with improved flexibility and scalability. The source codes and models are available at https://github.com/BradleyWang0416/Human-in-Context.
- Abstract(参考訳): 本稿では,複数のモダリティ,タスク,データセットを扱う単一モデルとして,ドメイン間の3次元人間の動作をモデル化することを目的とする。
既存のクロスドメインモデルはドメイン固有のコンポーネントやマルチステージトレーニングに依存しており、実用性とスケーラビリティを制限している。
これらの課題を克服するため,ドメイン固有のコンポーネントやマルチステージトレーニングの必要性を排除し,単一プロセスを通じて統合ドメインモデルをトレーニングする新たな設定を提案する。
最初にPose-in-Context(PiC)を紹介した。これはコンテキスト内学習を活用して、ポーズ中心のクロスドメインモデルを作成する。
PiCは複数のポーズベースのタスクとデータセットにまたがって一般化されるが、モダリティの多様性、戦略の促進、コンテキスト依存処理といった困難に直面している。
そこで我々は、モーダル性、タスク、データセットの一般化を拡大するPiCの拡張であるHuman-in-Context(HiC)を提案する。
HiCは、統一されたフレームワーク内でのポーズとメッシュ表現を組み合わせて、タスクカバレッジを拡張し、大規模データセットを組み込む。
さらにHiCでは、さまざまなドメイン間の一般化を強化するために、Max-min類似性プロンプトサンプリング戦略と、コンテキスト依存性の処理を改善するためのデュアルブランチコンテキストインジェクションを備えたネットワークアーキテクチャを導入している。
広範囲な領域にわたる一般化,データスケール,パフォーマンスの観点から,HiCはPiCよりも優れた性能を示した。
これらの結果は、柔軟性とスケーラビリティを向上した、クロスドメインな3次元モーションモデルを構築するためのHiCの可能性を示している。
ソースコードとモデルはhttps://github.com/BradleyWang0416/Human-in-Contextで入手できる。
関連論文リスト
- Hierarchical Attention Fusion of Visual and Textual Representations for Cross-Domain Sequential Recommendation [19.654959889052638]
クロスドメインシークエンシャルレコメンデーション(CDSR)は、複数のドメインにわたる歴史的なインタラクションを活用することで、ユーザの振る舞いを予測する。
本稿では,視覚的・テキスト的表現の階層的意図融合(HAF-VT)を提案する。
階層的な注意機構は、人間の情報統合を模倣して、単一ドメインとクロスドメインの好みを共同で学習する。
論文 参考訳(メタデータ) (2025-04-21T13:18:54Z) - Exploiting Aggregation and Segregation of Representations for Domain Adaptive Human Pose Estimation [50.31351006532924]
人間のポーズ推定(HPE)は最近、モーション分析、バーチャルリアリティー、ヘルスケア等に広く応用されているため、注目を集めている。
時間と労働集約的なアノテーションのために、ラベル付き現実世界のデータセットが不足している。
本稿では,ドメイン適応型人間のポーズ推定のための表現集約と分離を両立させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-29T17:59:45Z) - One for All: Multi-Domain Joint Training for Point Cloud Based 3D Object Detection [71.78795573911512]
textbfOneDet3Dは、異なるドメイン間での3D検出に対処する汎用的なワン・ツー・オール・モデルである。
本稿では、データ干渉問題に対処するため、ルーティング機構によって誘導される散乱とコンテキストにおけるドメイン認識を提案する。
完全なスパース構造とアンカーフリーヘッドは、さらに大きなスケールの差のある点雲を収容する。
論文 参考訳(メタデータ) (2024-11-03T14:21:56Z) - FedBone: Towards Large-Scale Federated Multi-Task Learning [13.835972363413884]
現実世界のアプリケーションでは、視覚と自然言語のタスクは、高レベルの抽象的特徴を抽出するために大規模なモデルを必要とする。
既存のHFML手法は、マルチタスク最適化における勾配競合の影響を無視している。
我々はFedBoneと呼ばれる革新的なフレームワークを提案し、より優れた一般化を伴う大規模モデルの構築を可能にする。
論文 参考訳(メタデータ) (2023-06-30T08:19:38Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Global Relation Modeling and Refinement for Bottom-Up Human Pose
Estimation [4.24515544235173]
ボトムアップヒトポーズ推定のための畳み込みニューラルネットワークを提案する。
我々のモデルは、地域によって異なる粒度に焦点を合わせることができる。
COCO と CrowdPose のデータセットで得られた結果は,多人数ポーズ推定の効率的なフレームワークであることを実証している。
論文 参考訳(メタデータ) (2023-03-27T02:54:08Z) - An Empirical Study on Multi-Domain Robust Semantic Segmentation [42.79166534691889]
我々は、いくつかの人気セグメンテーションデータセットに基づいて、ドメイン間でうまく機能することが期待される統一モデルをトレーニングする。
RVC 2022セマンティックセマンティックセグメンテーションタスクでは,データセットは第1モデルの1/3に過ぎなかった。
論文 参考訳(メタデータ) (2022-12-08T12:04:01Z) - Multi-path Neural Networks for On-device Multi-domain Visual
Classification [55.281139434736254]
本稿では,モバイルデバイス上でのマルチドメイン視覚分類のためのマルチパスネットワークの自動学習手法を提案する。
提案するマルチパスネットワークは,各ドメインに1つの強化学習コントローラを適用して,MobileNetV3のような検索空間から生成されたスーパーネットワークの最適経路を選択することにより,ニューラルネットワーク検索から学習する。
決定されたマルチパスモデルは、個々のドメインパス内の非共有ノード内にドメイン固有のパラメータを保持しながら、共有ノード内のドメイン間でパラメータを選択的に共有する。
論文 参考訳(メタデータ) (2020-10-10T05:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。