論文の概要: FixMyPose: Pose Correctional Captioning and Retrieval
- arxiv url: http://arxiv.org/abs/2104.01703v1
- Date: Sun, 4 Apr 2021 21:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:56:50.108392
- Title: FixMyPose: Pose Correctional Captioning and Retrieval
- Title(参考訳): fixmypose: 修正キャプションと検索を行う
- Authors: Hyounghun Kim, Abhay Zala, Graham Burri, Mohit Bansal
- Abstract要約: 本稿では,自動ポーズ修正システムに対応する新しいキャプションデータセットfixmyposeを提案する。
我々は「現在の」ポーズを「ターゲット」ポーズのように見えるように修正する記述を収集する。
MLバイアスを避けるため、さまざまな階層を持つキャラクタ間のバランスを維持します。
- 参考スコア(独自算出の注目度): 67.20888060019028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interest in physical therapy and individual exercises such as yoga/dance has
increased alongside the well-being trend. However, such exercises are hard to
follow without expert guidance (which is impossible to scale for personalized
feedback to every trainee remotely). Thus, automated pose correction systems
are required more than ever, and we introduce a new captioning dataset named
FixMyPose to address this need. We collect descriptions of correcting a
"current" pose to look like a "target" pose (in both English and Hindi). The
collected descriptions have interesting linguistic properties such as
egocentric relations to environment objects, analogous references, etc.,
requiring an understanding of spatial relations and commonsense knowledge about
postures. Further, to avoid ML biases, we maintain a balance across characters
with diverse demographics, who perform a variety of movements in several
interior environments (e.g., homes, offices). From our dataset, we introduce
the pose-correctional-captioning task and its reverse target-pose-retrieval
task. During the correctional-captioning task, models must generate
descriptions of how to move from the current to target pose image, whereas in
the retrieval task, models should select the correct target pose given the
initial pose and correctional description. We present strong cross-attention
baseline models (uni/multimodal, RL, multilingual) and also show that our
baselines are competitive with other models when evaluated on other
image-difference datasets. We also propose new task-specific metrics
(object-match, body-part-match, direction-match) and conduct human evaluation
for more reliable evaluation, and we demonstrate a large human-model
performance gap suggesting room for promising future work. To verify the
sim-to-real transfer of our FixMyPose dataset, we collect a set of real images
and show promising performance on these images.
- Abstract(参考訳): 身体療法やヨガやダンスなどの個人的運動への興味は、健康的な傾向とともに高まっている。
しかし、このようなエクササイズは専門家の指導なしには追跡できない(各研修生に対して個別のフィードバックをリモートで行うにはスケールできない)。
そのため,これまで以上に自動ポーズ修正システムが必要となり,これに対応するためにfixmyposeという新しいキャプションデータセットを導入する。
現在」のポーズを(英語とヒンディー語の両方で)「ターゲット」のポーズのように見えるように修正する記述を収集する。
収集された記述は、環境オブジェクトに対する自我中心的な関係、類似した参照など、空間的関係や姿勢に関する常識的な知識の理解を必要とする興味深い言語特性を有する。
さらに、MLバイアスを避けるために、様々な内部環境(例えば、家、オフィス)で様々な動きを行う多様な人口層とのキャラクター間のバランスを維持します。
データセットからポーズ補正・キャプチャタスクとその逆ターゲット・ポジ・リトライバルタスクを導入する。
補正作業中、モデルは現在のポーズ画像からターゲット画像への移動方法の説明を生成しなければならないが、検索作業では、初期ポーズと補正記述に基づいて、モデルが正しいターゲットポーズを選択する必要がある。
また,他の画像差分データセットで評価すると,強い相互対応ベースラインモデル(uni/multimodal,RL, multilingual)が示され,そのベースラインが他のモデルと競合することを示す。
また,新しいタスク特定指標(オブジェクトマッチング,ボディパートマッチング,方向マッチング)を提案し,より信頼性の高い評価のためにヒューマン評価を行い,将来的な作業が期待できる大きなヒューマンモデル性能ギャップを実証する。
fixmyposeデータセットのsim-to-real転送を検証するために、実画像の集合を収集し、これらの画像に有望なパフォーマンスを示す。
関連論文リスト
- Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation [32.190055780969466]
Stable-Poseは、粗い注目マスキング戦略を視覚変換器に導入する新しいアダプタモデルである。
我々は、ViTのクエリキー自己保持機構を利用して、人間のポーズスケルトンにおける異なる解剖学的部分間の相互接続を探索する。
Stable-PoseはLAION-HumanデータセットのAPスコア57.1を達成し、確立したControlNetよりも約13%改善した。
論文 参考訳(メタデータ) (2024-06-04T16:54:28Z) - A Spatial-Temporal Transformer based Framework For Human Pose Assessment
And Correction in Education Scenarios [6.146739983645156]
骨格追跡、ポーズ推定、姿勢評価、姿勢補正モジュールを含む。
視覚援助の形で補正フィードバックを提供するためにポーズ補正法を作成する。
その結果,本モデルは学生の行動の質を効果的に測定し,コメントできることがわかった。
論文 参考訳(メタデータ) (2023-11-01T09:53:38Z) - PoseTrans: A Simple Yet Effective Pose Transformation Augmentation for
Human Pose Estimation [40.50255017107963]
我々は多彩なポーズを持つ新しいトレーニングサンプルを作成するために、Pose Transformation (PoseTrans)を提案する。
また,ポーズの規則性を測定するためにPose Clustering Module (PCM)を提案する。
提案手法は効率的で実装が容易であり,既存のポーズ推定モデルのトレーニングパイプラインに容易に組み込むことができる。
論文 参考訳(メタデータ) (2022-08-16T14:03:01Z) - Hallucinating Pose-Compatible Scenes [55.064949607528405]
ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。
毎日の環境に1900万フレーム以上の人間がいる巨大なメタデータをキュレートします。
我々は、ポーズ互換シーンを人間の有無に関わらず幻覚化し、不整合シーンやポーズを可視化し、1つの生成された画像から別のシーンに人物を配置し、ポーズをアニメーションする様々な用途に、トレーニングされたモデルを活用する。
論文 参考訳(メタデータ) (2021-12-13T18:59:26Z) - Progressive and Aligned Pose Attention Transfer for Person Image
Generation [59.87492938953545]
本稿では,ある人物のポーズを対象のポーズに移す,新たなポーズ移動のための生成的広告ネットワークを提案する。
Pose-Attentional Transfer Block (PATB) と Aligned Pose-Attentional Transfer Bloc (APATB) の2種類のブロックを使用します。
Market-1501およびDeepFashionデータセットにおけるモデルの有効性を定量的および定性測定を用いて検証する。
論文 参考訳(メタデータ) (2021-03-22T07:24:57Z) - Adversarial Transfer of Pose Estimation Regression [11.117357750374035]
本研究では,シーン不変の画像表現を学習するための深層適応ネットワークを開発し,モデル転送のための表現を生成する。
我々は、Cambridge Landmarksと7Sceneの2つの公開データセット上でネットワークを評価し、いくつかのベースラインよりもその優位性を実証し、アート手法の状況と比較した。
論文 参考訳(メタデータ) (2020-06-20T21:16:37Z) - Yoga-82: A New Dataset for Fine-grained Classification of Human Poses [46.319423568714505]
82クラスからなる大規模ヨガポーズ認識のためのデータセットYoga-82を提案する。
Yoga-82は、細かいアノテーションができない複雑なポーズで構成されている。
データセットには、体の位置、体の位置の変化、実際のポーズ名を含む3レベル階層が含まれている。
論文 参考訳(メタデータ) (2020-04-22T01:43:44Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Deformation-aware Unpaired Image Translation for Pose Estimation on
Laboratory Animals [56.65062746564091]
我々は,神経回路が行動をどのようにオーケストレーションするかを研究するために,手動による監督を使わずに,神経科学モデル生物のポーズを捉えることを目的としている。
我々の重要な貢献は、未完成の画像翻訳フレームワークにおける外観、形状、ポーズの明示的で独立したモデリングである。
ショウジョウバエ(ハエ)、線虫(線虫)、ダニオ・レリオ(ゼブラフィッシュ)のポーズ推定精度の向上を実証した。
論文 参考訳(メタデータ) (2020-01-23T15:34:11Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。