Fugu-MT 論文翻訳(概要): VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual Grounders

論文の概要: VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual Grounders

arxiv url: http://arxiv.org/abs/2309.01141v4
Date: Tue, 23 Jan 2024 15:51:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 19:18:46.726986
Title: VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual Grounders
Title（参考訳）: VGDiffZero:テキストと画像の拡散モデルはゼロショットのビジュアルグラウンド
Authors: Xuyang Liu, Siteng Huang, Yachen Kang, Honggang Chen, Donglin Wang
Abstract要約: VGDiffZeroは、テキストから画像への拡散モデルに基づくゼロショットのビジュアルグラウンドティングフレームワークである。 VGDiffZeroはゼロショット映像のグラウンド化において高い性能を示す。
参考スコア（独自算出の注目度）: 31.371338262371122
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale text-to-image diffusion models have shown impressive capabilities for generative tasks by leveraging strong vision-language alignment from pre-training. However, most vision-language discriminative tasks require extensive fine-tuning on carefully-labeled datasets to acquire such alignment, with great cost in time and computing resources. In this work, we explore directly applying a pre-trained generative diffusion model to the challenging discriminative task of visual grounding without any fine-tuning and additional training dataset. Specifically, we propose VGDiffZero, a simple yet effective zero-shot visual grounding framework based on text-to-image diffusion models. We also design a comprehensive region-scoring method considering both global and local contexts of each isolated proposal. Extensive experiments on RefCOCO, RefCOCO+, and RefCOCOg show that VGDiffZero achieves strong performance on zero-shot visual grounding. Our code is available at https://github.com/xuyang-liu16/VGDiffZero.
Abstract（参考訳）: 大規模テキストから画像への拡散モデルは、事前学習から強い視覚言語アライメントを活用することで、生成的タスクに素晴らしい能力を示している。しかし、視覚言語識別タスクの多くは、時間と計算リソースに大きなコストをかけて、そのようなアライメントを得るために注意深くラベルされたデータセットを広範囲に微調整する必要がある。本研究では,事前学習した生成拡散モデルを直接,微調整や追加の訓練データセットを使わずに視覚的接地を識別する難しいタスクに適用することを検討する。具体的には,テキストから画像への拡散モデルに基づく,単純かつ効果的なゼロショット視覚接地フレームワークであるvgdiffzeroを提案する。また,各提案のグローバルコンテキストとローカルコンテキストの両方を考慮した包括的領域スケーリング手法を設計する。 RefCOCO、RefCOCO+、RefCOCOgの大規模な実験は、VGDiffZeroがゼロショットの視覚的グラウンドで強いパフォーマンスを達成することを示している。私たちのコードはhttps://github.com/xuyang-liu16/vgdiffzeroで利用可能です。

関連論文リスト

Few-Shot Vision-Language Reasoning for Satellite Imagery via Verifiable Rewards [7.14978158285611]
衛星画像に対する検証可能な報酬(RLVR)フレームワークを用いた最初の数発の強化学習を提案する。我々は、衛星推論タスクのモデル出力の整合化のために、ポリシー段階の最適化を1つのキュレートされた例で導入する。何千もの注釈付きサンプルで訓練されたモデルに一致または超える128のサンプルにスケールする。
論文参考訳（メタデータ） (2025-07-29T12:23:19Z)
Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-04T05:48:02Z)
Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。 CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文参考訳（メタデータ） (2024-07-29T18:00:10Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか? まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文参考訳（メタデータ） (2024-01-11T18:59:14Z)
GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-12-22T20:14:55Z)
Few-Shot Learning with Visual Distribution Calibration and Cross-Modal Distribution Alignment [47.53887941065894]
事前訓練された視覚言語モデルは、数ショット学習に関する多くの研究にインスピレーションを与えている。少数の訓練画像だけで、視覚的特徴分布は画像のクラス非関連情報によって容易に妨げられる。本稿では,画像の空間的注意マップを生成するSelective Attackモジュールを提案する。
論文参考訳（メタデータ） (2023-05-19T05:45:17Z)
Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文参考訳（メタデータ） (2023-05-18T05:41:36Z)
Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文参考訳（メタデータ） (2023-03-03T18:59:47Z)
Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文参考訳（メタデータ） (2022-10-25T16:22:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。