論文の概要: AutoComPose: Automatic Generation of Pose Transition Descriptions for Composed Pose Retrieval Using Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2503.22884v1
- Date: Fri, 28 Mar 2025 21:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:36:16.015601
- Title: AutoComPose: Automatic Generation of Pose Transition Descriptions for Composed Pose Retrieval Using Multimodal LLMs
- Title(参考訳): AutoComPose:マルチモーダルLCMを用いた合成詩検索のための詩遷移記述の自動生成
- Authors: Yi-Ting Shen, Sungmin Eum, Doheon Lee, Rohit Shete, Chiao-Yi Wang, Heesung Kwon, Shuvra S. Bhattacharyya,
- Abstract要約: 合成ポーズ検索(CPR)により、ユーザーは参照ポーズと遷移記述を指定して人間のポーズを検索できる。
既存のCPRデータセットは、コストのかかる人的アノテーションやアノテーションベースのルール生成に依存している。
マルチモーダルな大規模言語モデル(MLLM)を利用する最初のフレームワークであるAutoComPoseを導入し、リッチで構造化されたポーズ遷移記述を自動的に生成する。
- 参考スコア(独自算出の注目度): 11.881681015746238
- License:
- Abstract: Composed pose retrieval (CPR) enables users to search for human poses by specifying a reference pose and a transition description, but progress in this field is hindered by the scarcity and inconsistency of annotated pose transitions. Existing CPR datasets rely on costly human annotations or heuristic-based rule generation, both of which limit scalability and diversity. In this work, we introduce AutoComPose, the first framework that leverages multimodal large language models (MLLMs) to automatically generate rich and structured pose transition descriptions. Our method enhances annotation quality by structuring transitions into fine-grained body part movements and introducing mirrored/swapped variations, while a cyclic consistency constraint ensures logical coherence between forward and reverse transitions. To advance CPR research, we construct and release two dedicated benchmarks, AIST-CPR and PoseFixCPR, supplementing prior datasets with enhanced attributes. Extensive experiments demonstrate that training retrieval models with AutoComPose yields superior performance over human-annotated and heuristic-based methods, significantly reducing annotation costs while improving retrieval quality. Our work pioneers the automatic annotation of pose transitions, establishing a scalable foundation for future CPR research.
- Abstract(参考訳): 合成ポーズ検索(CPR)により、ユーザーは参照ポーズと遷移記述を指定して人間のポーズを検索できるが、この領域の進歩は注釈付きポーズ遷移の不足と矛盾によって妨げられる。
既存のCPRデータセットは、スケーラビリティと多様性を制限する、コストのかかる人的アノテーションやヒューリスティックベースのルール生成に依存しています。
本稿では,マルチモーダルな大規模言語モデル(MLLM)を活用する最初のフレームワークであるAutoComPoseを紹介し,リッチで構造化されたポーズ遷移記述を自動的に生成する。
提案手法は, 微粒化体の部分運動への遷移を構造化し, ミラー化/スワップ化のばらつきを導入することにより, アノテーションの品質を向上させる。
CPR研究を進めるために、AIST-CPRとPoseFixCPRという2つの専用のベンチマークを構築し、リリースする。
大規模な実験により,AutoComPoseを用いた学習モデルでは,人間のアノテーションやヒューリスティックな手法よりも優れた性能が得られ,検索品質を向上しながら,アノテーションのコストを大幅に削減できることが示された。
我々の研究は、ポーズ遷移の自動アノテーションの先駆者であり、将来のCPR研究のためのスケーラブルな基盤を確立する。
関連論文リスト
- Unity in Diversity: Multi-expert Knowledge Confrontation and Collaboration for Generalizable Vehicle Re-identification [60.20318058777603]
一般化可能な車両再識別(ReID)は、微調整や再訓練を必要とせず、未知のターゲットドメインに適応可能なモデルの開発を目指している。
これまでの研究は主に、ソースドメイン間のデータ分散を調整することで、ドメイン不変の機能の抽出に重点を置いてきた。
そこで本研究では,この問題を解決するために,2段階のMulti-expert Knowledge Confrontation and Collaboration(MiKeCoCo)手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T04:06:39Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Self-supervised Correlation Mining Network for Person Image Generation [9.505343361614928]
人物画像生成は、ソース画像の非剛性変形を実現することを目的としている。
特徴空間のソース画像を再構成する自己教師付き相関マイニングネットワーク(SCM-Net)を提案する。
クロススケールポーズ変換の忠実度を向上させるために,グラフに基づく身体構造保持損失を提案する。
論文 参考訳(メタデータ) (2021-11-26T03:57:46Z) - OH-Former: Omni-Relational High-Order Transformer for Person
Re-Identification [30.023365814501137]
我々は,Omni-Relational High-Order Transformer (OH-Former)を提案する。
提案モデル実験の結果は, Market-1501, DukeMTMC, MSMT17, Occluded-Dukeデータセットの最先端性能を示す,優れた有望性を示した。
論文 参考訳(メタデータ) (2021-09-23T06:11:38Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - Robust Person Re-Identification through Contextual Mutual Boosting [77.1976737965566]
本研究では,歩行者の局地化を目的としたコンテキスト相互ブースティングネットワーク(CMBN)を提案する。
歩行者をローカライズし、文脈情報と統計的推測を効果的に活用することで特徴を再検討する。
ベンチマークの実験は、最先端のアーキテクチャと比較してアーキテクチャの優位性を示している。
論文 参考訳(メタデータ) (2020-09-16T06:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。