論文の概要: HOIGPT: Learning Long Sequence Hand-Object Interaction with Language Models
- arxiv url: http://arxiv.org/abs/2503.19157v1
- Date: Mon, 24 Mar 2025 21:25:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:43.928077
- Title: HOIGPT: Learning Long Sequence Hand-Object Interaction with Language Models
- Title(参考訳): HOIGPT:Long Sequence Hand-Object Interaction with Language Models
- Authors: Mingzhen Huang, Fu-Jen Chu, Bugra Tekin, Kevin J Liang, Haoyu Ma, Weiyao Wang, Xingyu Chen, Pierre Gleize, Hongfei Xue, Siwei Lyu, Kris Kitani, Matt Feiszli, Hao Tang,
- Abstract要約: HOIGPTは、3Dハンドオブジェクトインタラクション(HOI)の認識と生成を統一するトークンベースの生成方法である。
HOIGPTは、HOIシーケンスと自然言語記述の間の入札変換を予測するために、大きな言語モデルを利用する。
- 参考スコア(独自算出の注目度): 73.86796212966811
- License:
- Abstract: We introduce HOIGPT, a token-based generative method that unifies 3D hand-object interactions (HOI) perception and generation, offering the first comprehensive solution for captioning and generating high-quality 3D HOI sequences from a diverse range of conditional signals (\eg text, objects, partial sequences). At its core, HOIGPT utilizes a large language model to predict the bidrectional transformation between HOI sequences and natural language descriptions. Given text inputs, HOIGPT generates a sequence of hand and object meshes; given (partial) HOI sequences, HOIGPT generates text descriptions and completes the sequences. To facilitate HOI understanding with a large language model, this paper introduces two key innovations: (1) a novel physically grounded HOI tokenizer, the hand-object decomposed VQ-VAE, for discretizing HOI sequences, and (2) a motion-aware language model trained to process and generate both text and HOI tokens. Extensive experiments demonstrate that HOIGPT sets new state-of-the-art performance on both text generation (+2.01% R Precision) and HOI generation (-2.56 FID) across multiple tasks and benchmarks.
- Abstract(参考訳): トークンベースの生成手法であるHOIGPTを導入し,様々な条件信号(テキスト,オブジェクト,部分シーケンス)から高品質な3D HOIシーケンスをキャプションし生成するための,最初の包括的ソリューションを提供する。
HOIGPTは、HOIシーケンスと自然言語記述の間の入札変換を予測するために、大きな言語モデルを利用する。
テキスト入力が与えられたら、HOIGPTは手とオブジェクトメッシュのシーケンスを生成し、(部分的な)HOIシーケンスが与えられたら、HOIGPTはテキスト記述を生成し、そのシーケンスを完了する。
大規模な言語モデルによるHOI理解を促進するために,(1)新しい物理的基盤を持つHOIトークンライザ,(2)テキストおよびHOIトークンの処理と生成を訓練した動き認識言語モデル,の2つの革新を紹介した。
大規模な実験により、HOIGPTはテキスト生成(+2.01% R精度)とHOI生成(-2.56 FID)の両方に複数のタスクとベンチマークで新しい最先端のパフォーマンスを設定できることが示されている。
関連論文リスト
- F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions [42.10935504617501]
既存の3Dヒューマンオブジェクトインタラクション(HOI)データセットとモデルは、グローバルな記述と長いHOIシーケンスを単純に一致させる。
状態レベルの記述を利用した細粒度セマンティックアライメントは,意味的に豊かなHOI表現を学習する上で有望なパラダイムである,と我々は主張する。
論文 参考訳(メタデータ) (2024-07-17T09:43:58Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Attend, Memorize and Generate: Towards Faithful Table-to-Text Generation
in Few Shots [58.404516361586325]
Few-shot table-to-text generation は、限られたデータを用いてテーブル内容を伝えるために、流動的で忠実な文を構成するタスクである。
本稿では,人間のテキスト生成プロセスに触発された新しい手法,覚醒と生成(AMG)を提案する。
論文 参考訳(メタデータ) (2022-03-01T20:37:20Z) - Few-shot Knowledge Graph-to-Text Generation with Pretrained Language
Models [42.38563175680914]
本稿では,知識グラフ(KG)の事実を記述した自然言語テキストの自動生成方法について検討する。
数ショットの設定を考えると、言語理解と生成において事前学習された言語モデル(PLM)の優れた能力を利用する。
論文 参考訳(メタデータ) (2021-06-03T06:48:00Z) - Outline to Story: Fine-grained Controllable Story Generation from
Cascaded Events [39.577220559911055]
長文のきめ細かい制御が可能な生成のためのテストベッドとして,"Outline to Story" (O2S) という新しいタスクを提案する。
次に、最新のキーワード抽出技術で構築された将来のベンチマーク用のデータセットを作成します。
論文 参考訳(メタデータ) (2021-01-04T08:16:21Z) - PALM: Pre-training an Autoencoding&Autoregressive Language Model for
Context-conditioned Generation [92.7366819044397]
自己指導型事前学習は、自然言語の理解と生成のための強力な技術として登場した。
本研究は,大規模未ラベルコーパス上で自己エンコーディングと自己回帰言語モデルを共同で事前学習する新しいスキームをPALMに提示する。
広範な実験により、PALMは様々な言語生成ベンチマークにおいて、新しい最先端の結果を達成することが示されている。
論文 参考訳(メタデータ) (2020-04-14T06:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。