Fugu-MT 論文翻訳(概要): HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects

論文の概要: HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects

arxiv url: http://arxiv.org/abs/2407.12371v1
Date: Wed, 17 Jul 2024 07:47:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 18:07:45.416513
Title: HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects
Title（参考訳）: HIMO:複数オブジェクトによるフルボディヒューマンインタラクションのための新しいベンチマーク
Authors: Xintao Lv, Liang Xu, Yichao Yan, Xin Jin, Congsheng Xu, Shuwen Wu, Yifan Liu, Lincheng Li, Mengxiao Bi, Wenjun Zeng, Xiaokang Yang,
Abstract要約: HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。 HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
参考スコア（独自算出の注目度）: 86.86284624825356
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating human-object interactions (HOIs) is critical with the tremendous advances of digital avatars. Existing datasets are typically limited to humans interacting with a single object while neglecting the ubiquitous manipulation of multiple objects. Thus, we propose HIMO, a large-scale MoCap dataset of full-body human interacting with multiple objects, containing 3.3K 4D HOI sequences and 4.08M 3D HOI frames. We also annotate HIMO with detailed textual descriptions and temporal segments, benchmarking two novel tasks of HOI synthesis conditioned on either the whole text prompt or the segmented text prompts as fine-grained timeline control. To address these novel tasks, we propose a dual-branch conditional diffusion model with a mutual interaction module for HOI synthesis. Besides, an auto-regressive generation pipeline is also designed to obtain smooth transitions between HOI segments. Experimental results demonstrate the generalization ability to unseen object geometries and temporal compositions.
Abstract（参考訳）: 人-物相互作用(HOIs)の生成は、デジタルアバターの大幅な進歩に不可欠である。既存のデータセットは通常、複数のオブジェクトのユビキタスな操作を無視しながら、単一のオブジェクトと対話する人間に限られる。そこで,本研究では,3.3K 4D HOI シーケンスと4.08M 3D HOI フレームを含む,多数のオブジェクトと相互作用する実物体の大規模な MoCap データセット HIMO を提案する。また、HIMOに詳細なテキスト記述と時間セグメントを付加し、テキストプロンプト全体またはセグメント化されたテキストプロンプトに条件付されたHOI合成の2つの新しいタスクを、きめ細かいタイムライン制御としてベンチマークする。このような新しい課題に対処するために,HOI合成のための相互相互作用モジュールを持つ二重分岐条件拡散モデルを提案する。さらに、HOIセグメント間のスムーズな遷移を得るために自動回帰生成パイプラインも設計されている。実験結果から, 物体の地形や時間組成を可視化する一般化能力が示された。

関連論文リスト

HOI-PAGE: Zero-Shot Human-Object Interaction Generation with Part Affordance Guidance [33.77779848399525]
テキストプロンプトから4次元の人間と物体の相互作用を合成するための新しいアプローチであるHOI-を提案する。パート Affordance Graphs (PAGs) は、接触関係とともに、きめ細かい部分情報を符号化する。我々のアプローチは柔軟であり、複雑な多目的または多対人インタラクションシーケンスを生成することができる。
論文参考訳（メタデータ） (2025-06-08T16:15:39Z)
VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。新しい仮面融合はSAM2を双方向の点伝播に用いている。 The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文参考訳（メタデータ） (2025-06-05T17:59:29Z)
DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.99373622902827]
DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文参考訳（メタデータ） (2025-05-26T18:55:14Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
Efficient Explicit Joint-level Interaction Modeling with Mamba for Text-guided HOI Generation [25.770855154106453]
本稿では,テキスト誘導型人-物体相互作用を生成するための効率的な共同対話モデル(EJIM)を提案する。 EJIMはDual-branch HOI Mambaを特徴としている。 EJIM は推定時間の 5% しか使用せず, 従来の作業よりも大きなマージンで上回っていることを示す。
論文参考訳（メタデータ） (2025-03-29T15:23:21Z)
Auto-Regressive Diffusion for Generating 3D Human-Object Interactions [5.587507490937267]
HOI生成の鍵となる課題は、長いシーケンスでの相互作用の一貫性を維持することである。本稿では,次の連続トークンを予測する自己回帰拡散モデル(ARDHOI)を提案する。このモデルはOMOMOとBEHAVEのデータセットで評価されている。
論文参考訳（メタデータ） (2025-03-21T02:25:59Z)
VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。 VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。 VidVRDのワンステージモデルであるVrdONEを提案する。
論文参考訳（メタデータ） (2024-08-18T08:38:20Z)
F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions [42.10935504617501]
既存の3Dヒューマンオブジェクトインタラクション(HOI)データセットとモデルは、グローバルな記述と長いHOIシーケンスを単純に一致させる。状態レベルの記述を利用した細粒度セマンティックアライメントは,意味的に豊かなHOI表現を学習する上で有望なパラダイムである,と我々は主張する。
論文参考訳（メタデータ） (2024-07-17T09:43:58Z)
Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。人体全体の動きや部分レベルの物体の動きを複雑に捉えます。本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文参考訳（メタデータ） (2024-03-13T15:45:04Z)
SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images for Articulated Objects [24.737865259695006]
そこで本研究では, SM$3$と呼ばれる自己教師型相互作用認識手法を提案する。取得した2次元画像から3次元の幾何学とテクスチャを構築することで、SM$3$は可動部と関節パラメータの統合最適化を実現する。 SM$3$は、様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオにおける適応性は、徹底的に検証されている。
論文参考訳（メタデータ） (2024-01-17T11:15:09Z)
HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion Models [42.62823339416957]
テキストのプロンプトによって駆動される現実的な3次元物体間相互作用(HOI)を創出する問題に対処する。まず、入力テキストに条件付けされた人間と物体の両方の動きを生成するための二重分岐拡散モデル(HOI-DM)を開発する。また,人間と物体の接触領域を予測するためのアベイランス予測拡散モデル(APDM)を開発した。
論文参考訳（メタデータ） (2023-12-11T17:41:17Z)
Hierarchical Generation of Human-Object Interactions with Diffusion Probabilistic Models [71.64318025625833]
本稿では,対象物と相互作用する人間の3次元運動を生成するための新しいアプローチを提案する。私たちのフレームワークはまず一連のマイルストーンを生成し、それに沿って動きを合成します。 NSM, COUCH, SAMPデータセットを用いた実験では, 従来の手法よりも品質と多様性に大きな差があることが示されている。
論文参考訳（メタデータ） (2023-10-03T17:50:23Z)
InterDiff: Generating 3D Human-Object Interactions with Physics-Informed Diffusion [29.25063155767897]
本稿では,3次元物体相互作用(HOI)の予測に向けた新しい課題について述べる。我々のタスクは、様々な形状の動的物体をモデリングし、全身の動きを捉え、物理的に有効な相互作用を確実にする必要があるため、はるかに困難である。複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を生成できることを示した。
論文参考訳（メタデータ） (2023-08-31T17:59:08Z)
ROAM: Robust and Object-Aware Motion Generation Using Neural Pose Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-08-24T17:59:51Z)
Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文参考訳（メタデータ） (2023-06-07T17:57:45Z)
Spatio-Temporal Interaction Graph Parsing Networks for Human-Object Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文参考訳（メタデータ） (2021-08-19T11:57:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。