論文の概要: VisorGPT: Learning Visual Prior via Generative Pre-Training
- arxiv url: http://arxiv.org/abs/2305.13777v2
- Date: Wed, 24 May 2023 07:18:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 10:53:48.935391
- Title: VisorGPT: Learning Visual Prior via Generative Pre-Training
- Title(参考訳): VisorGPT: 生成的事前学習による視覚的優先学習
- Authors: Jinheng Xie, Kai Ye, Yudong Li, Yuexiang Li, Kevin Qinghong Lin,
Yefeng Zheng, Linlin Shen, Mike Zheng Shou
- Abstract要約: この作業は、視覚的事前学習を明確にし、サンプリングのカスタマイズを可能にすることを目的としている。
言語モデリングの進歩に触発されて、私たちはVisorGPTと呼ばれるジェネレーティブ・プレトレーニングを通してビジュアル・プレトレーニングを学ぶことを提案する。
- 参考スコア(独自算出の注目度): 39.40924670971505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various stuff and things in visual data possess specific traits, which can be
learned by deep neural networks and are implicitly represented as the visual
prior, \emph{e.g.,} object location and shape, in the model. Such prior
potentially impacts many vision tasks. For example, in conditional image
synthesis, spatial conditions failing to adhere to the prior can result in
visually inaccurate synthetic results. This work aims to explicitly learn the
visual prior and enable the customization of sampling. Inspired by advances in
language modeling, we propose to learn Visual prior via Generative
Pre-Training, dubbed VisorGPT. By discretizing visual locations of objects,
\emph{e.g.,} bounding boxes, human pose, and instance masks, into sequences,
\our~can model visual prior through likelihood maximization. Besides, prompt
engineering is investigated to unify various visual locations and enable
customized sampling of sequential outputs from the learned prior. Experimental
results demonstrate that \our~can effectively model the visual prior, which can
be employed for many vision tasks, such as customizing accurate human pose for
conditional image synthesis models like ControlNet. Code will be released at
https://github.com/Sierkinhane/VisorGPT.
- Abstract(参考訳): 視覚データ内の様々な物や物は、ディープニューラルネットワークによって学習できる特定の特徴を持ち、モデル内のオブジェクトの位置や形状など、視覚的に先行するものとして暗黙的に表現される。
このような事前処理は多くの視覚タスクに影響を与える可能性がある。
例えば、条件付き画像合成では、事前に固執しない空間条件は、視覚的に不正確な合成結果をもたらす。
この作業は、視覚的事前学習とサンプリングのカスタマイズを可能にすることを目的としている。
言語モデリングの進歩に触発されて、私たちはVisorGPTと呼ばれるジェネレーティブ・プレトレーニングを通してビジュアル・プレトレーニングを学ぶことを提案する。
例えば、バウンディングボックス、人間のポーズ、インスタンスマスクなど、オブジェクトの視覚的な位置をシーケンスに識別することで、最大化によるモデルの事前設定が可能になる。
さらに、様々な視覚的位置を統一し、学習前の逐次的な出力のサンプリングをカスタマイズできるようにする。
実験の結果,制御ネットのような条件付き画像合成モデルに対して,正確な人間のポーズをカスタマイズするなど,視覚的なタスクの多くに使用できる視覚的事前を効果的にモデル化できることが示されている。
コードはhttps://github.com/Sierkinhane/VisorGPTでリリースされる。
関連論文リスト
- What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Multimodal Analysis Of Google Bard And GPT-Vision: Experiments In Visual
Reasoning [0.0]
我々は、Google BardとGPT-Visionを、"Visual situational Reasoning"や"Next Scene Prediction"といったカテゴリにまたがる64の視覚タスクに適用する。
本研究の結果は,視覚言語モデルの限界を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-08-17T03:14:00Z) - What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。
支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。
GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文 参考訳(メタデータ) (2023-05-20T16:11:26Z) - Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。