論文の概要: Portrait Interpretation and a Benchmark
- arxiv url: http://arxiv.org/abs/2207.13315v1
- Date: Wed, 27 Jul 2022 06:25:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 13:29:07.098806
- Title: Portrait Interpretation and a Benchmark
- Title(参考訳): ポートレート解釈とベンチマーク
- Authors: Yixuan Fan, Zhaopeng Dou, Yali Li, Shengjin Wang
- Abstract要約: 提案した肖像画解釈は,人間の知覚を新たな体系的視点から認識する。
我々は,身元,性別,年齢,体格,身長,表情,姿勢をラベル付けした25万枚の画像を含む新しいデータセットを構築した。
筆者らの実験結果から, 肖像画解釈に関わるタスクを組み合わせることで, メリットが得られることが示された。
- 参考スコア(独自算出の注目度): 49.484161789329804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a task we name Portrait Interpretation and construct a dataset
named Portrait250K for it. Current researches on portraits such as human
attribute recognition and person re-identification have achieved many
successes, but generally, they: 1) may lack mining the interrelationship
between various tasks and the possible benefits it may bring; 2) design deep
models specifically for each task, which is inefficient; 3) may be unable to
cope with the needs of a unified model and comprehensive perception in actual
scenes. In this paper, the proposed portrait interpretation recognizes the
perception of humans from a new systematic perspective. We divide the
perception of portraits into three aspects, namely Appearance, Posture, and
Emotion, and design corresponding sub-tasks for each aspect. Based on the
framework of multi-task learning, portrait interpretation requires a
comprehensive description of static attributes and dynamic states of portraits.
To invigorate research on this new task, we construct a new dataset that
contains 250,000 images labeled with identity, gender, age, physique, height,
expression, and posture of the whole body and arms. Our dataset is collected
from 51 movies, hence covering extensive diversity. Furthermore, we focus on
representation learning for portrait interpretation and propose a baseline that
reflects our systematic perspective. We also propose an appropriate metric for
this task. Our experimental results demonstrate that combining the tasks
related to portrait interpretation can yield benefits. Code and dataset will be
made public.
- Abstract(参考訳): 我々はPortrait Interpretationというタスクを提案し、Portrait250Kというデータセットを構築した。
現在、人物属性認識や人物再同定などの肖像画の研究は、多くの成果を上げているが、一般的には以下のとおりである。
1) 様々なタスク間の相互関係やそれがもたらしうる利益をマイニングすることができない可能性がある。
2) 各タスクに特有な深層モデルの設計は非効率である。
3)実場面における統一モデルと包括的知覚の必要性に対処できない可能性がある。
本稿では,提案するポートレート解釈は,人間の知覚を新たな体系的視点から認識する。
ポートレートの知覚を、外観、姿勢、感情の3つの側面に分け、それぞれの側面に対応するサブタスクをデザインする。
マルチタスク学習の枠組みに基づき、ポートレート解釈は静的属性とポートレートの動的状態の包括的な記述を必要とする。
この新しい課題の研究を活発にするために、身元、性別、年齢、体格、身長、表情、体と腕の姿勢でラベル付けされた25万枚の画像を含む新しいデータセットを構築した。
当社のデータセットは51本の映画から収集され、幅広い多様性をカバーしています。
さらに,ポートレート解釈のための表現学習に着目し,系統的視点を反映したベースラインを提案する。
また,この課題に対する適切な指標を提案する。
本研究は,ポートレート解釈に関連するタスクを組み合わせると,その効果が期待できることを示す。
コードとデータセットは公開されます。
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Panoptic Perception: A Novel Task and Fine-grained Dataset for Universal Remote Sensing Image Interpretation [19.987706084203523]
本稿では,新しいタスクであるPanoptic Perceptionと,より徹底的で普遍的なRSI解釈を実現するためのFineGrip(FineGrip)を提案する。
新しいタスクは、ピクセルレベル、インスタンスレベル、イメージレベル情報を統合して、普遍的なイメージ知覚を実現する。
FineGripデータセットには、2,649のリモートセンシングイメージ、20のフォアグラウンドに属する12,054のきめ細かいインスタンスセグメンテーションマスク、5つのクラスのための7,599のバックグラウンドセマンティックマスク、13,245のキャプション文が含まれている。
論文 参考訳(メタデータ) (2024-04-06T12:27:21Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Enhancing the Authenticity of Rendered Portraits with
Identity-Consistent Transfer Learning [30.64677966402945]
本稿では,「不気味な谷」効果を効果的に緩和できる写真リアルな肖像画生成フレームワークを提案する。
私たちのキーとなる考え方は、トランスファーラーニングを使って、レンダリングされた肖像画の潜在空間から実際の肖像画へのアイデンティティ一貫性のあるマッピングを学ぶことです。
論文 参考訳(メタデータ) (2023-10-06T12:20:40Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark [80.79082788458602]
テキスト・ツー・イメージ・モデルを評価するための新しいマルチタスク・ベンチマークを提供する。
我々は、最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルを比較した。
20人のコンピュータサイエンスの大学院生が、2つのモデルを3つのタスクで評価し、それぞれ10のプロンプトで3つの難易度で評価した。
論文 参考訳(メタデータ) (2022-11-22T09:27:53Z) - FixMyPose: Pose Correctional Captioning and Retrieval [67.20888060019028]
本稿では,自動ポーズ修正システムに対応する新しいキャプションデータセットfixmyposeを提案する。
我々は「現在の」ポーズを「ターゲット」ポーズのように見えるように修正する記述を収集する。
MLバイアスを避けるため、さまざまな階層を持つキャラクタ間のバランスを維持します。
論文 参考訳(メタデータ) (2021-04-04T21:45:44Z) - Visual Relationship Detection using Scene Graphs: A Survey [1.3505077405741583]
シーングラフ(Scene Graph)は、シーンとその中のさまざまな関係をよりよく表現するためのテクニックである。
本稿では、シーングラフ生成の様々な技術、視覚的関係を表現するための有効性、下流の様々な課題の解決にどのように使われているかについて、詳細な調査を行う。
論文 参考訳(メタデータ) (2020-05-16T17:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。