論文の概要: Hierarchical Motion Captioning Utilizing External Text Data Source
- arxiv url: http://arxiv.org/abs/2509.01471v1
- Date: Mon, 01 Sep 2025 13:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.720879
- Title: Hierarchical Motion Captioning Utilizing External Text Data Source
- Title(参考訳): 外部テキストデータを利用した階層型モーションキャプション
- Authors: Clayton Leite, Yu Xiao,
- Abstract要約: 本稿では,既存の動きキャプション手法を改良するための新しいアプローチを提案する。
我々は、大きな言語モデルを用いて、モーションテキストデータセットに現れる各ハイレベルなキャプションに対応する詳細な記述を作成する。
詳細な低レベルのキャプションを、追加のテキストデータソースからの候補高レベルのキャプションと整合させ、モーション機能と組み合わせて正確な高レベルのキャプションを作成する。
- 参考スコア(独自算出の注目度): 1.2072875728151518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a novel approach to enhance existing motion captioning methods, which directly map representations of movement to high-level descriptive captions (e.g., ``a person doing jumping jacks"). The existing methods require motion data annotated with high-level descriptions (e.g., ``jumping jacks"). However, such data is rarely available in existing motion-text datasets, which additionally do not include low-level motion descriptions. To address this, we propose a two-step hierarchical approach. First, we employ large language models to create detailed descriptions corresponding to each high-level caption that appears in the motion-text datasets (e.g., ``jumping while synchronizing arm extensions with the opening and closing of legs" for ``jumping jacks"). These refined annotations are used to retrain motion-to-text models to produce captions with low-level details. Second, we introduce a pioneering retrieval-based mechanism. It aligns the detailed low-level captions with candidate high-level captions from additional text data sources, and combine them with motion features to fabricate precise high-level captions. Our methodology is distinctive in its ability to harness knowledge from external text sources to greatly increase motion captioning accuracy, especially for movements not covered in existing motion-text datasets. Experiments on three distinct motion-text datasets (HumanML3D, KIT, and BOTH57M) demonstrate that our method achieves an improvement in average performance (across BLEU-1, BLEU-4, CIDEr, and ROUGE-L) ranging from 6% to 50% compared to the state-of-the-art M2T-Interpretable.
- Abstract(参考訳): 本稿では,動作の表現を高レベルな記述キャプション(例えば,「ジャンプジャックをしている人」)に直接マッピングする,既存の動作キャプション手法を強化するための新しい手法を提案する。
しかし、そのようなデータは既存のモーションテキストデータセットではほとんど利用できず、低レベルなモーション記述も含まない。
そこで本研究では,2段階の階層的アプローチを提案する。
まず、大きな言語モデルを用いて、モーションテキストデータセットに現れる各ハイレベルキャプションに対応する詳細な記述を作成します(例えば、"`jumping while synchronizing arm extension with the opening of legs" for ``jumping jacks)。
これらの洗練されたアノテーションは、モーション・トゥ・テキスト・モデルを再訓練し、低レベルの詳細のキャプションを生成するために使用される。
第2に,先駆的な検索機構を導入する。
詳細な低レベルのキャプションを、追加のテキストデータソースからの候補高レベルのキャプションと整合させ、モーション機能と組み合わせて正確な高レベルのキャプションを作成する。
本手法は,既存の動きテキストデータセットに含まれない動きに対して,動きキャプションの精度を大幅に向上させるために,外部テキストソースからの知識を活用する能力に特有である。
HumanML3D, KIT, BOTH57Mの3つの異なる動きテキストデータセットを用いた実験により, 最新のM2T-Interpretableと比較して平均性能(BLEU-1, BLEU-4, CIDEr, ROUGE-L)が6%から50%向上したことを示す。
関連論文リスト
- ReAlign: Bilingual Text-to-Motion Generation via Step-Aware Reward-Guided Alignment [48.894439350114396]
本稿では,バイリンガル・テキスト・トゥ・モーション生成モデルにおいて重要なベンチマークとなるバイリンガル・ヒューマン・モーション・データセットであるBiHumanML3Dを提案する。
また,バイリンガル・モーション・ディフュージョン・モデル (BiMD) を提案する。
提案手法は,既存の最先端手法と比較して,テキスト・モーションアライメントと動作品質を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-05-08T06:19:18Z) - The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。
提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文 参考訳(メタデータ) (2025-03-31T03:00:19Z) - FTMoMamba: Motion Generation with Frequency and Text State Space Models [53.60865359814126]
本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。
微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。
テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
論文 参考訳(メタデータ) (2024-11-26T15:48:12Z) - LocoMotion: Learning Motion-Focused Video-Language Representations [45.33444862034461]
局所物体の動きと時間的進行を記述した動きに着目したキャプションからLocoMotionを提案する。
ビデオに合成動作を追加し、これらの動きのパラメータを用いて対応するキャプションを生成することで、これを実現する。
論文 参考訳(メタデータ) (2024-10-15T19:33:57Z) - MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。
本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。
このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文 参考訳(メタデータ) (2024-08-01T16:58:50Z) - Diving Deep into the Motion Representation of Video-Text Models [12.197093960700187]
GPT-4の生成した動作記述は、アクティビティのきめ細かい動作記述をキャプチャする。
動作記述の検索作業におけるビデオテキストモデルの評価を行った。
論文 参考訳(メタデータ) (2024-06-07T16:46:10Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文 参考訳(メタデータ) (2023-05-25T08:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。