Fugu-MT 論文翻訳(概要): DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks

論文の概要: DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks

arxiv url: http://arxiv.org/abs/2502.17157v2
Date: Tue, 25 Feb 2025 04:40:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 13:17:50.588063
Title: DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks
Title（参考訳）: DICEPTION:視覚的知覚課題に対する一般拡散モデル
Authors: Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen,
Abstract要約: 計算資源やデータトレーニングの限界内で、複数のタスクに対処できる優れた一般認識モデルを作成します。 DICEPTIONが複数の知覚タスクに効果的に取り組み、最先端のモデルと同等の性能を達成していることを示す。異なるインスタンスにランダムな色を割り当てる戦略は、エンティティセグメンテーションとセマンティックセグメンテーションの両方において非常に効果的であることを示す。
参考スコア（独自算出の注目度）: 51.439283251703635
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Our primary goal here is to create a good, generalist perception model that can tackle multiple tasks, within limits on computational resources and training data. To achieve this, we resort to text-to-image diffusion models pre-trained on billions of images. Our exhaustive evaluation metrics demonstrate that DICEPTION effectively tackles multiple perception tasks, achieving performance on par with state-of-the-art models. We achieve results on par with SAM-vit-h using only 0.06% of their data (e.g., 600K vs. 1B pixel-level annotated images). Inspired by Wang et al., DICEPTION formulates the outputs of various perception tasks using color encoding; and we show that the strategy of assigning random colors to different instances is highly effective in both entity segmentation and semantic segmentation. Unifying various perception tasks as conditional image generation enables us to fully leverage pre-trained text-to-image models. Thus, DICEPTION can be efficiently trained at a cost of orders of magnitude lower, compared to conventional models that were trained from scratch. When adapting our model to other tasks, it only requires fine-tuning on as few as 50 images and 1% of its parameters. DICEPTION provides valuable insights and a more promising solution for visual generalist models. Homepage: https://aim-uofa.github.io/Diception, Huggingface Demo: https://huggingface.co/spaces/Canyu/Diception-Demo.
Abstract（参考訳）: ここでの私たちの一番の目標は、計算リソースやトレーニングデータに制限のある複数のタスクに対処できる、優れた汎用的な認識モデルを作ることです。これを実現するために、何十億もの画像で事前訓練されたテキスト・画像拡散モデルを用いる。 DICEPTIONが複数の知覚タスクに効果的に取り組み、最先端のモデルと同等の性能を達成していることを示す。 SAM-vit-hに匹敵する結果が得られたのは0.06%(例:600K vs. 1B ピクセルレベルの注釈付き画像)のみである。 WangらにインスパイアされたDICEPTIONは、色符号化を用いて様々な知覚タスクの出力を定式化し、乱色を異なるインスタンスに割り当てる戦略は、エンティティセグメンテーションとセマンティックセグメンテーションの両方において非常に効果的であることを示す。様々な知覚タスクを条件付き画像生成として統一することで、事前学習されたテキスト・画像モデルを完全に活用することができる。このように、DICEPTIONは、スクラッチから訓練された従来のモデルと比較して、桁違いのコストで効率的に訓練することができる。私たちのモデルを他のタスクに適応させるには、50のイメージと1%のパラメータのみを微調整する必要があります。 DICEPTIONは、ビジュアルジェネラリストモデルに対して、貴重な洞察とより有望なソリューションを提供する。ホームページ: https://aim-uofa.github.io/Diception, Huggingface Demo: https://huggingface.co/spaces/Canyu/Diception-Demo

関連論文リスト

Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。 ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文参考訳（メタデータ） (2024-12-07T11:19:32Z)
Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文参考訳（メタデータ） (2024-05-06T02:02:57Z)
MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文参考訳（メタデータ） (2024-04-16T16:50:35Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
Heuristic Vision Pre-Training with Self-Supervised and Supervised Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文参考訳（メタデータ） (2023-10-11T14:06:04Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
MOFI: Learning Image Representations from Noisy Entity Annotated Images [47.6984817573981]
ノイズのあるエンティティアノテート画像から画像表現を学習するための新しい視覚基盤モデルMOFIを提案する。ノイズの多い画像とテキストのペアから画像にエンティティラベルを自動的に割り当てる手法を提案する。提案手法では、アルトテキストからエンティティを抽出するために名前付きエンティティ認識モデルを使用し、CLIPモデルを用いて、ペア画像のラベルとして正しいエンティティを選択する。
論文参考訳（メタデータ） (2023-06-13T17:51:18Z)
Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching [63.88319217738223]
市販の視覚基礎モデルを用いて様々な知覚課題に対処する新しい知覚パラダイムであるMatcherを提案する。 Matcherは、様々なセグメンテーションタスクにまたがる印象的な一般化パフォーマンスを、すべてトレーニングなしでデモする。我々の結果は、野生の画像に適用されたMatcherのオープンワールドの一般性と柔軟性をさらに示すものである。
論文参考訳（メタデータ） (2023-05-22T17:59:43Z)
Images Speak in Images: A Generalist Painter for In-Context Visual Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文参考訳（メタデータ） (2022-12-05T18:59:50Z)
EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文参考訳（メタデータ） (2022-11-17T17:38:55Z)
MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。 ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文参考訳（メタデータ） (2022-11-16T18:59:02Z)
Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文参考訳（メタデータ） (2022-02-16T22:26:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。