Fugu-MT 論文翻訳(概要): VisorGPT: Learning Visual Prior via Generative Pre-Training

論文の概要: VisorGPT: Learning Visual Prior via Generative Pre-Training

arxiv url: http://arxiv.org/abs/2305.13777v4
Date: Tue, 30 May 2023 15:12:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 11:55:32.326307
Title: VisorGPT: Learning Visual Prior via Generative Pre-Training
Title（参考訳）: VisorGPT: 生成的事前学習による視覚的優先学習
Authors: Jinheng Xie, Kai Ye, Yudong Li, Yuexiang Li, Kevin Qinghong Lin, Yefeng Zheng, Linlin Shen, Mike Zheng Shou
Abstract要約: 視覚データのさまざまなものやものは、特定の特性を持ち、深層ニューラルネットワークによって学習され、視覚的先行として暗黙的に表現される。我々は、VisorGPTと呼ばれるジェネレーティブ・プレトレーニングを通じて、ビジュアル・プレトレーニングを学ぶことを提案する。境界ボックス、人間のポーズ、インスタンスマスクなどのオブジェクトの視覚的位置を識別することで、VisorGPTは可能性を通じて視覚的事前をモデル化することができる。
参考スコア（独自算出の注目度）: 39.40924670971505
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Various stuff and things in visual data possess specific traits, which can be learned by deep neural networks and are implicitly represented as the visual prior, e.g., object location and shape, in the model. Such prior potentially impacts many vision tasks. For example, in conditional image synthesis, spatial conditions failing to adhere to the prior can result in visually inaccurate synthetic results. This work aims to explicitly learn the visual prior and enable the customization of sampling. Inspired by advances in language modeling, we propose to learn Visual prior via Generative Pre-Training, dubbed VisorGPT. By discretizing visual locations of objects, e.g., bounding boxes, human pose, and instance masks, into sequences, VisorGPT can model visual prior through likelihood maximization. Besides, prompt engineering is investigated to unify various visual locations and enable customized sampling of sequential outputs from the learned prior. Experimental results demonstrate that VisorGPT can effectively model the visual prior, which can be employed for many vision tasks, such as customizing accurate human pose for conditional image synthesis models like ControlNet. Code will be released at https://github.com/Sierkinhane/VisorGPT.
Abstract（参考訳）: 視覚データのさまざまなものやものは特定の特性を持ち、深層ニューラルネットワークによって学習され、暗黙的にモデル内のオブジェクトの位置や形状などの視覚的先行として表現される。このような事前処理は多くの視覚タスクに影響を与える可能性がある。例えば、条件付き画像合成では、事前に固執しない空間条件は、視覚的に不正確な合成結果をもたらす。この作業は、視覚的事前学習とサンプリングのカスタマイズを可能にすることを目的としている。言語モデリングの進歩に触発されて、私たちはVisorGPTと呼ばれるジェネレーティブ・プレトレーニングを通してビジュアル・プレトレーニングを学ぶことを提案する。オブジェクトの視覚的位置、例えば、バウンディングボックス、人間のポーズ、インスタンスマスクをシーケンスに識別することで、VisorGPTは最大化によって視覚的事前をモデル化することができる。さらに、様々な視覚的位置を統一し、学習前の逐次的な出力のサンプリングをカスタマイズできるようにする。実験の結果、visorgptは視覚前兆を効果的にモデル化できることが示され、例えば、制御ネットのような条件付き画像合成モデルのための正確な人間のポーズをカスタマイズするなど、多くの視覚タスクに使用できる。コードはhttps://github.com/Sierkinhane/VisorGPTでリリースされる。

関連論文リスト

ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
Pixels Versus Priors: Controlling Knowledge Priors in Vision-Language Models through Visual Counterfacts [20.915966499705032]
我々は、世界的知識を視覚入力と直接衝突させる視覚的現実的反事実のデータセットであるVisual CounterFactを紹介した。モデル予測は、当初記憶された先行を反映していたが、中期から後期の層における視覚的エビデンスに移行したことを示す。このダイナミクスは、2つのモダリティ間の競合を明らかにし、視覚的な入力は評価中に最終的に事前をオーバーライドする。
論文参考訳（メタデータ） (2025-05-21T22:56:55Z)
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文参考訳（メタデータ） (2025-03-05T18:44:48Z)
Do we Really Need Visual Instructions? Towards Visual Instruction-Free Fine-tuning for Large Vision-Language Models [127.38740043393527]
LVLMのための視覚的命令なし微調整フレームワークであるViFTを提案する。我々は、タスク解決能力と視覚知覚能力を個別に学習するために、トレーニング中にテキストのみの指示と画像キャプションデータのみを必要とする。実験結果から,VFTはいくつかの視覚的推論と,それに続く視覚的指示に対して,最先端の性能を達成できることが示された。
論文参考訳（メタデータ） (2025-02-17T04:38:12Z)
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文参考訳（メタデータ） (2023-11-03T18:09:08Z)
Heuristic Vision Pre-Training with Self-Supervised and Supervised Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文参考訳（メタデータ） (2023-10-11T14:06:04Z)
Multimodal Analysis Of Google Bard And GPT-Vision: Experiments In Visual Reasoning [0.0]
我々は、Google BardとGPT-Visionを、"Visual situational Reasoning"や"Next Scene Prediction"といったカテゴリにまたがる64の視覚タスクに適用する。本研究の結果は,視覚言語モデルの限界を浮き彫りにしている。
論文参考訳（メタデータ） (2023-08-17T03:14:00Z)
What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。 GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文参考訳（メタデータ） (2023-05-20T16:11:26Z)
Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。 VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文参考訳（メタデータ） (2023-03-09T02:43:10Z)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文参考訳（メタデータ） (2022-12-01T05:00:18Z)
Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文参考訳（メタデータ） (2021-03-29T06:35:24Z)
What Can You Learn from Your Muscles? Learning Visual Representation from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文参考訳（メタデータ） (2020-10-16T17:46:53Z)
Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。 ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文参考訳（メタデータ） (2020-08-04T08:04:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。