論文の概要: Beyond Appearance: a Semantic Controllable Self-Supervised Learning
Framework for Human-Centric Visual Tasks
- arxiv url: http://arxiv.org/abs/2303.17602v1
- Date: Thu, 30 Mar 2023 17:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 12:14:09.347531
- Title: Beyond Appearance: a Semantic Controllable Self-Supervised Learning
Framework for Human-Centric Visual Tasks
- Title(参考訳): Beyond Outearance: 人中心視覚タスクのためのセマンティック制御可能な自己監督型学習フレームワーク
- Authors: Weihua Chen, Xianzhe Xu, Jian Jia, Hao luo, Yaohua Wang, Fan Wang,
Rong Jin, Xiuyu Sun
- Abstract要約: 本稿では,セマンティックcOntrollable seLf-supervIseD lEaRningフレームワークであるSOLIDERと呼ぶ。
従来の自己教師型学習法とは異なり、人間の画像からの事前知識はSOLIDERで活用される。
下流の6つの人間中心の視覚的タスクで検証される。
- 参考スコア(独自算出の注目度): 29.537278918259563
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Human-centric visual tasks have attracted increasing research attention due
to their widespread applications. In this paper, we aim to learn a general
human representation from massive unlabeled human images which can benefit
downstream human-centric tasks to the maximum extent. We call this method
SOLIDER, a Semantic cOntrollable seLf-supervIseD lEaRning framework. Unlike the
existing self-supervised learning methods, prior knowledge from human images is
utilized in SOLIDER to build pseudo semantic labels and import more semantic
information into the learned representation. Meanwhile, we note that different
downstream tasks always require different ratios of semantic information and
appearance information. For example, human parsing requires more semantic
information, while person re-identification needs more appearance information
for identification purpose. So a single learned representation cannot fit for
all requirements. To solve this problem, SOLIDER introduces a conditional
network with a semantic controller. After the model is trained, users can send
values to the controller to produce representations with different ratios of
semantic information, which can fit different needs of downstream tasks.
Finally, SOLIDER is verified on six downstream human-centric visual tasks. It
outperforms state of the arts and builds new baselines for these tasks. The
code is released in https://github.com/tinyvision/SOLIDER.
- Abstract(参考訳): 人間中心の視覚タスクは、広く応用されているため、研究の注目を集めている。
本稿では,下流の人間中心のタスクを最大限に活用できる巨大なラベルのない人間の画像から,一般的な人間表現を学習することを目的とする。
本稿では,セマンティックcOntrollable seLf-supervIseD lEaRningフレームワークであるSOLIDERと呼ぶ。
従来の自己教師付き学習法とは異なり、人間の画像からの事前知識をSOLIDERで利用して擬似意味ラベルを構築し、学習した表現により多くの意味情報をインポートする。
一方、異なる下流タスクでは、意味情報と外観情報の比率が常に異なることに留意する。
例えば、人間のパースにはよりセマンティックな情報が必要であり、人物の再識別には識別のためにより多くの外観情報が必要である。
したがって、単一の学習表現はすべての要件に適合しない。
この問題を解決するため、soliderはセマンティクスコントローラを備えた条件付きネットワークを導入する。
モデルがトレーニングされた後、ユーザーはコントローラに値を送り、異なる意味情報の比率で表現を生成することができる。
最後に、SOLIDERは、下流の6つの人間中心の視覚タスクで検証される。
芸術の状態を上回り、これらのタスクの新たなベースラインを構築します。
コードはhttps://github.com/tinyvision/soliderでリリースされている。
関連論文リスト
- Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - InstructDiffusion: A Generalist Modeling Interface for Vision Tasks [52.981128371910266]
InstructDiffusionはコンピュータビジョンタスクを人間の指示に合わせるためのフレームワークである。
InstructDiffusionは、タスクの理解や生成タスクなど、さまざまなビジョンタスクを処理できる。
目に見えないタスクを処理し、新しいデータセットで前のメソッドより優れていることも示しています。
論文 参考訳(メタデータ) (2023-09-07T17:56:57Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Ignorance is Bliss: Robust Control via Information Gating [60.17644038829572]
情報パーシモニーは、ノイズや突発的相関に頑健であることにより、より良い一般化を実現する学習表現に有用な帰納的バイアスを提供する。
本稿では,タスクに必要な最小限の情報を識別する類似表現を学習する手段として,テキスト情報ゲーティングを提案する。
論文 参考訳(メタデータ) (2023-03-10T18:31:50Z) - Brief Introduction to Contrastive Learning Pretext Tasks for Visual
Representation [0.0]
教師なし学習手法のサブセットであるコントラスト学習を導入する。
対照的な学習の目的は、互いに近くにある同じサンプルから強化されたサンプルを埋め込んで、そうでないサンプルを押し下げることである。
我々は、最近公開されたコントラスト学習の戦略をいくつか提示し、視覚表現のためのプレテキストタスクに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-06T18:54:10Z) - Rich Semantics Improve Few-shot Learning [49.11659525563236]
アノテーションコストを最小限に抑えながら取得できる「クラスレベル」言語記述を用いることで、少ない学習性能を向上できることを示す。
我々は,視覚トークンと意味トークンを関連付けるための前方および後方エンコーディング機構を開発した。
論文 参考訳(メタデータ) (2021-04-26T16:48:27Z) - Can Semantic Labels Assist Self-Supervised Visual Representation
Learning? [194.1681088693248]
近隣環境におけるコントラスト調整(SCAN)という新しいアルゴリズムを提案する。
一連のダウンストリームタスクにおいて、SCANは従来の完全教師付きおよび自己教師付きメソッドよりも優れたパフォーマンスを達成する。
本研究は, セマンティックラベルが自己指導的手法の補助に有用であることを明らかにする。
論文 参考訳(メタデータ) (2020-11-17T13:25:00Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。