論文の概要: GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts
- arxiv url: http://arxiv.org/abs/2405.18438v1
- Date: Mon, 8 Apr 2024 18:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 08:19:53.647648
- Title: GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts
- Title(参考訳): GHOST:オープン・ボキャブラリ・シーン・テキスト・コンテキストを用いたグラウンドド・ヒューマン・モーション・ジェネレーション
- Authors: Zoltán Á. Milacski, Koichiro Niinuma, Ryosuke Kawamura, Fernando de la Torre, László A. Jeni,
- Abstract要約: 本稿では,オープンな語彙シーンエンコーダをアーキテクチャに統合し,テキストとシーン間の堅牢な接続を確立する手法を提案する。
提案手法は,従来の最先端ベースラインモデルと比較すると,目標目標距離距離を最大30%削減する。
- 参考スコア(独自算出の注目度): 48.28000728061778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The connection between our 3D surroundings and the descriptive language that characterizes them would be well-suited for localizing and generating human motion in context but for one problem. The complexity introduced by multiple modalities makes capturing this connection challenging with a fixed set of descriptors. Specifically, closed vocabulary scene encoders, which require learning text-scene associations from scratch, have been favored in the literature, often resulting in inaccurate motion grounding. In this paper, we propose a method that integrates an open vocabulary scene encoder into the architecture, establishing a robust connection between text and scene. Our two-step approach starts with pretraining the scene encoder through knowledge distillation from an existing open vocabulary semantic image segmentation model, ensuring a shared text-scene feature space. Subsequently, the scene encoder is fine-tuned for conditional motion generation, incorporating two novel regularization losses that regress the category and size of the goal object. Our methodology achieves up to a 30% reduction in the goal object distance metric compared to the prior state-of-the-art baseline model on the HUMANISE dataset. This improvement is demonstrated through evaluations conducted using three implementations of our framework and a perceptual study. Additionally, our method is designed to seamlessly accommodate future 2D segmentation methods that provide per-pixel text-aligned features for distillation.
- Abstract(参考訳): 私たちの3D環境とそれらの特徴を持つ記述言語との接続は、コンテキスト内での人間の動きのローカライズと生成に適していますが、ひとつの問題には適しています。
複数のモダリティによって導入された複雑さは、この接続を固定された記述子のセットで取得することを困難にしている。
具体的には、テキスト・シーンの関連をゼロから学習する必要があるクローズド・ボキャブラリー・シーン・エンコーダが文学において好まれており、しばしば不正確な動きのグラウンド化をもたらす。
本稿では,オープンな語彙シーンエンコーダをアーキテクチャに統合し,テキストとシーン間の堅牢な接続を確立する手法を提案する。
我々の2段階のアプローチは、既存のオープン語彙のセマンティックイメージセグメンテーションモデルからの知識蒸留によるシーンエンコーダの事前訓練から始まり、テキストシーンの特徴空間の共有を保証する。
その後、シーンエンコーダを条件付きモーション生成のために微調整し、ゴールオブジェクトのカテゴリとサイズを抑える2つの新たな正規化損失を組み込む。
提案手法は,HUMANISEデータセットの先行技術ベースラインモデルと比較して,目標目標距離の30%削減を実現する。
この改善は,本フレームワークの3つの実装と知覚的研究を用いて行った評価を通じて実証された。
さらに,本手法は,蒸留用画素ごとのテキストアライメント機能を実現する2Dセグメンテーション法をシームレスに適応するように設計されている。
関連論文リスト
- See It All: Contextualized Late Aggregation for 3D Dense Captioning [38.14179122810755]
3D高密度キャプションは、オブジェクトを3Dシーンでローカライズし、各オブジェクトに対して記述文を生成するタスクである。
3D高密度キャプションにおける最近のアプローチでは、オブジェクト検出から手作りの部品を使わずにエンドツーエンドのパイプラインを構築するためのトランスフォーマー・エンコーダ・デコーダ・フレームワークが採用されている。
SIA(See-It-All)は3次元高密度キャプションに係わるトランスフォーマーパイプラインであり,遅延アグリゲーションと呼ばれる新しいパラダイムを導入している。
論文 参考訳(メタデータ) (2024-08-14T16:19:18Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-02-07T10:09:00Z) - Panoptic Vision-Language Feature Fields [27.209602602110916]
オープンボキャブラリパノプティックセグメンテーションのための第1のアルゴリズムを3次元シーンで提案する。
本アルゴリズムは,事前学習した2次元モデルから視覚言語の特徴を抽出することにより,シーンの意味的特徴場を学習する。
提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティカルセグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T13:41:27Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文 参考訳(メタデータ) (2023-05-25T08:32:41Z) - Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor
Segmentation [90.74732705236336]
言語クエリビデオアクターセグメンテーションは、ターゲットフレーム内の自然言語クエリで記述されたアクションを実行するアクターのピクセルマスクを予測することを目的としています。
本研究では,ビデオクリップ上に3次元時間エンコーダを内蔵した空間時空間エンコーダ・デコーダフレームワークと,対象フレーム上に2次元空間エンコーダを組み込んで,クエリアクターを正確にセグメント化することを提案する。
論文 参考訳(メタデータ) (2021-05-14T13:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。