論文の概要: DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks
- arxiv url: http://arxiv.org/abs/2502.17157v2
- Date: Tue, 25 Feb 2025 04:40:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 11:59:01.678887
- Title: DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks
- Title(参考訳): DICEPTION:視覚的知覚課題に対する一般拡散モデル
- Authors: Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen,
- Abstract要約: 計算資源やデータトレーニングの限界内で、複数のタスクに対処できる優れた一般認識モデルを作成します。
DICEPTIONが複数の知覚タスクに効果的に取り組み、最先端のモデルと同等の性能を達成していることを示す。
異なるインスタンスにランダムな色を割り当てる戦略は、エンティティセグメンテーションとセマンティックセグメンテーションの両方において非常に効果的であることを示す。
- 参考スコア(独自算出の注目度): 51.439283251703635
- License:
- Abstract: Our primary goal here is to create a good, generalist perception model that can tackle multiple tasks, within limits on computational resources and training data. To achieve this, we resort to text-to-image diffusion models pre-trained on billions of images. Our exhaustive evaluation metrics demonstrate that DICEPTION effectively tackles multiple perception tasks, achieving performance on par with state-of-the-art models. We achieve results on par with SAM-vit-h using only 0.06% of their data (e.g., 600K vs. 1B pixel-level annotated images). Inspired by Wang et al., DICEPTION formulates the outputs of various perception tasks using color encoding; and we show that the strategy of assigning random colors to different instances is highly effective in both entity segmentation and semantic segmentation. Unifying various perception tasks as conditional image generation enables us to fully leverage pre-trained text-to-image models. Thus, DICEPTION can be efficiently trained at a cost of orders of magnitude lower, compared to conventional models that were trained from scratch. When adapting our model to other tasks, it only requires fine-tuning on as few as 50 images and 1% of its parameters. DICEPTION provides valuable insights and a more promising solution for visual generalist models. Homepage: https://aim-uofa.github.io/Diception, Huggingface Demo: https://huggingface.co/spaces/Canyu/Diception-Demo.
- Abstract(参考訳): ここでの私たちの一番の目標は、計算リソースやトレーニングデータに制限のある複数のタスクに対処できる、優れた汎用的な認識モデルを作ることです。
これを実現するために、何十億もの画像で事前訓練されたテキスト・画像拡散モデルを用いる。
DICEPTIONが複数の知覚タスクに効果的に取り組み、最先端のモデルと同等の性能を達成していることを示す。
SAM-vit-hに匹敵する結果が得られたのは0.06%(例:600K vs. 1B ピクセルレベルの注釈付き画像)のみである。
WangらにインスパイアされたDICEPTIONは、色符号化を用いて様々な知覚タスクの出力を定式化し、乱色を異なるインスタンスに割り当てる戦略は、エンティティセグメンテーションとセマンティックセグメンテーションの両方において非常に効果的であることを示す。
様々な知覚タスクを条件付き画像生成として統一することで、事前学習されたテキスト・画像モデルを完全に活用することができる。
このように、DICEPTIONは、スクラッチから訓練された従来のモデルと比較して、桁違いのコストで効率的に訓練することができる。
私たちのモデルを他のタスクに適応させるには、50のイメージと1%のパラメータのみを微調整する必要があります。
DICEPTIONは、ビジュアルジェネラリストモデルに対して、貴重な洞察とより有望なソリューションを提供する。
ホームページ: https://aim-uofa.github.io/Diception, Huggingface Demo: https://huggingface.co/spaces/Canyu/Diception-Demo
関連論文リスト
- Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。
ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。
本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文 参考訳(メタデータ) (2024-12-07T11:19:32Z) - One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - Learned Single-Pass Multitasking Perceptual Graphics for Immersive Displays [11.15417027415116]
本稿では,テキスト誘導型マルチタスク・パーセプチュアルグラフィックスモデルを提案する。
我々のモデルは、フェーベレートレンダリング、ダイナミックレンジエンハンスメント、画像デノイング、クロモステロプシスなど、様々な知覚タスクをサポートしている。
組込みプラットフォーム上でのモデルの性能を評価し,ユーザスタディを通じてモデルの知覚的品質を評価する。
論文 参考訳(メタデータ) (2024-07-31T19:05:00Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Matcher: Segment Anything with One Shot Using All-Purpose Feature
Matching [63.88319217738223]
市販の視覚基礎モデルを用いて様々な知覚課題に対処する新しい知覚パラダイムであるMatcherを提案する。
Matcherは、様々なセグメンテーションタスクにまたがる印象的な一般化パフォーマンスを、すべてトレーニングなしでデモする。
我々の結果は、野生の画像に適用されたMatcherのオープンワールドの一般性と柔軟性をさらに示すものである。
論文 参考訳(メタデータ) (2023-05-22T17:59:43Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。