論文の概要: Personalized Generative Models for Contextual Debiasing
- arxiv url: http://arxiv.org/abs/2605.26353v1
- Date: Mon, 25 May 2026 21:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.482283
- Title: Personalized Generative Models for Contextual Debiasing
- Title(参考訳): コンテキストデバイアスのためのパーソナライズされた生成モデル
- Authors: Xinran Liang, Esin Tureci, Prachi Sinha, Ye Zhu, Vikram V. Ramaswamy, Olga Russakovsky,
- Abstract要約: 稀な文脈を持つ画像のコヒーレントな合成を容易にするために,デカップリング・コンテクスト・パターンとジェネレーション(デカップルジェネレーション)を導入する。
複雑なシーンデータセットのオブジェクト分類と認識タスクに対するアプローチを評価する。
- 参考スコア(独自算出の注目度): 25.27886417379261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Different visual patterns appear with different frequencies in the world: e.g., beach balls appear on sand more often than they do on a road. These statistics are reflected in vision datasets, and as a result trained models more easily recognize objects in common scenarios. However, recognizing a beach ball on a road may arguably be even more important than recognizing it on sand. We study how to mitigate this discrepancy. Since collecting uncommon images in the real world may be difficult, we explore whether generating images with less frequent contexts can serve as effective training augmentation. A key challenge is guiding generations to remain close to the original dataset distribution while creating diverse images with uncommon contexts. We introduce Decoupling Contextual Patterns with Generations (DecoupleGen), a method that personalizes text-to-image diffusion models to facilitate coherent synthesis of images with rare contexts while preserving original visual details. The generated images contain semantically meaningful content and remain visually aligned with the original datasets. We further apply verification constraints to ensure relevance of the augmented data. We evaluate our approach on object classification and recognition tasks on complex scene datasets. Our experiments demonstrate consistent improvements over previous approaches, and our analyses identify factors underlying these improvements.
- Abstract(参考訳): 例えば、砂浜のボールは、道路上のものよりも頻繁に砂の上に現れます。
これらの統計はビジョンデータセットに反映され、結果としてトレーニングされたモデルは、共通のシナリオでオブジェクトをより容易に認識する。
しかし、道路上でのビーチボールの認識は、砂の上での認識よりも、間違いなく重要である。
私たちはこの不一致を緩和する方法を研究する。
実世界の珍しい画像の収集は困難である可能性があるため、少ない頻度で画像を生成することが効果的なトレーニング強化に役立てられるかどうかを考察する。
重要な課題は、世代が元のデータセットの分布に近づきながら、一般的でないコンテキストで多様なイメージを作成するように誘導することである。
デカップリング・コンテクスト・パターン・ウィズ・ジェネレーション(DecoupleGen)は、テキストと画像の拡散モデルをパーソナライズし、元の視覚的詳細を保存しながら、稀な文脈で画像のコヒーレントな合成を容易にする手法である。
生成された画像は意味的に意味のある内容を含み、元のデータセットと視覚的に一致している。
さらに、拡張データの関連性を確保するため、検証制約を適用します。
複雑なシーンデータセットのオブジェクト分類と認識タスクに対するアプローチを評価する。
本実験は,従来のアプローチよりも一貫した改善を実証し,これらの改善の根底にある要因を同定した。
関連論文リスト
- Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images [5.529078451095096]
視覚シーンの意味を理解することはコンピュータビジョンの基本的な課題である。
テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。
提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。
論文 参考訳(メタデータ) (2024-06-19T17:59:40Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Effective Data Augmentation With Diffusion Models [45.18188726287581]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Context-driven Visual Object Recognition based on Knowledge Graphs [0.8701566919381223]
本稿では,知識グラフに符号化された外部文脈知識を用いて,ディープラーニング手法を強化する手法を提案する。
我々は、異なる文脈ビューが同じ画像データセットの学習対象表現に与える影響を調べるために、一連の実験を行った。
論文 参考訳(メタデータ) (2022-10-20T13:09:00Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Audio-to-Image Cross-Modal Generation [0.0]
クロスモーダル表現学習は、異なるモーダルからの情報を1つの表現に統合することができる。
オーディオデータから画像アーキタイプを再構成するために、可変オートエンコーダ(VAE)を訓練する。
その結果, 生成した画像が相対的に不整合(多様性)である場合でも, 適切な画像分類に欠かせない特徴が保存されていることが示唆された。
論文 参考訳(メタデータ) (2021-09-27T21:25:31Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。