Fugu-MT 論文翻訳(概要): Text-image Alignment for Diffusion-based Perception

論文の概要: Text-image Alignment for Diffusion-based Perception

arxiv url: http://arxiv.org/abs/2310.00031v3
Date: Mon, 1 Apr 2024 17:27:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 13:02:27.826687
Title: Text-image Alignment for Diffusion-based Perception
Title（参考訳）: 拡散に基づく知覚のためのテキスト画像アライメント
Authors: Neehar Kondapaneni, Markus Marks, Manuel Knott, Rogerio Guimaraes, Pietro Perona,
Abstract要約: 拡散モデルは、印象的なテキスト-画像合成機能を備えた生成モデルである。視覚タスクに拡散バックボーンを適用する際に、プロンプトインターフェースをどのように使うかは不明確である。自動生成キャプションによってテキスト画像のアライメントが向上し、モデルのクロスアテンションマップが大幅に向上することがわかった。
参考スコア（独自算出の注目度）: 12.98777134700767
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models are generative models with impressive text-to-image synthesis capabilities and have spurred a new wave of creative methods for classical machine learning tasks. However, the best way to harness the perceptual knowledge of these generative models for visual tasks is still an open question. Specifically, it is unclear how to use the prompting interface when applying diffusion backbones to vision tasks. We find that automatically generated captions can improve text-image alignment and significantly enhance a model's cross-attention maps, leading to better perceptual performance. Our approach improves upon the current state-of-the-art (SOTA) in diffusion-based semantic segmentation on ADE20K and the current overall SOTA for depth estimation on NYUv2. Furthermore, our method generalizes to the cross-domain setting. We use model personalization and caption modifications to align our model to the target domain and find improvements over unaligned baselines. Our cross-domain object detection model, trained on Pascal VOC, achieves SOTA results on Watercolor2K. Our cross-domain segmentation method, trained on Cityscapes, achieves SOTA results on Dark Zurich-val and Nighttime Driving. Project page: https://www.vision.caltech.edu/tadp/. Code: https://github.com/damaggu/TADP.
Abstract（参考訳）: 拡散モデルは、印象的なテキストと画像の合成機能を備えた生成モデルであり、古典的な機械学習タスクのための新しい創造的な方法の波を刺激してきた。しかし、これらの生成モデルの知覚的知識を視覚的タスクに活用する最善の方法は、まだ未解決の問題である。具体的には、視覚タスクに拡散バックボーンを適用する際に、プロンプトインタフェースをどのように使うかは不明確である。自動生成されたキャプションはテキスト画像のアライメントを改善し、モデルのクロスアテンションマップを大幅に向上させることで、知覚性能が向上することがわかった。 ADE20K上の拡散に基づくセマンティックセマンティックセグメンテーションにおける現在のSOTA(State-of-the-art)と、NYUv2の深さ推定のための現在のSOTAを改良する。さらに,本手法はクロスドメイン設定に一般化する。モデルパーソナライゼーションとキャプション修正を使用して、モデルをターゲットドメインに整列させ、不整合ベースラインよりも改善点を見つける。パスカルVOCで訓練したクロスドメインオブジェクト検出モデルは、水色2K上でSOTA結果を得る。都市景観を訓練したクロスドメインセグメンテーション手法は,ダークチューリッヒ・ヴァルとナイトタイム・ドライビングのSOTA結果が得られる。プロジェクトページ: https://www.vision.caltech.edu/tadp/。コード:https://github.com/damaggu/TADP。

関連論文リスト

A Recipe for Improving Remote Sensing VLM Zero Shot Generalization [0.4427533728730559]
本稿では,リモートセンシング基礎モデルのトレーニングのための2つの新しい画像キャプチャーデータセットを提案する。最初のデータセットは、Google Mapsから抽出されたランドマークを使用して、Geminiによって生成されたキャプションと航空画像と衛星画像のペアである。第2のデータセットは、リモートセンシングドメインのためにフィルタリングされたパブリックWebイメージとそれに対応するalt-textを利用する。
論文参考訳（メタデータ） (2025-03-10T21:09:02Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
Direct Consistency Optimization for Compositional Text-to-Image Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文参考訳（メタデータ） (2024-02-19T09:52:41Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。 RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文参考訳（メタデータ） (2023-11-27T09:20:12Z)
Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文参考訳（メタデータ） (2023-08-15T17:58:11Z)
Intra- & Extra-Source Exemplar-Based Style Synthesis for Improved Domain Generalization [21.591831983223997]
セマンティックセグメンテーションにおけるドメインの一般化を改善するために,先進的なスタイル合成パイプラインを提案する。提案手法は,StyleGAN2インバージョンのためのマスク付きノイズエンコーダに基づく。データシフトの種類によって、ドライブシーンセマンティックセマンティックセグメンテーションの最大12.4%のmIoU改善を実現しています。
論文参考訳（メタデータ） (2023-07-02T19:56:43Z)
TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文参考訳（メタデータ） (2023-05-23T15:44:56Z)
Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文参考訳（メタデータ） (2023-03-03T18:59:47Z)
eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。 eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文参考訳（メタデータ） (2022-11-02T17:43:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。