Fugu-MT 論文翻訳(概要): Is What You Ask For What You Get? Investigating Concept Associations in Text-to-Image Models

論文の概要: Is What You Ask For What You Get? Investigating Concept Associations in Text-to-Image Models

arxiv url: http://arxiv.org/abs/2410.04634v2
Date: Fri, 14 Feb 2025 14:52:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-17 21:51:48.362078
Title: Is What You Ask For What You Get? Investigating Concept Associations in Text-to-Image Models
Title（参考訳）: 何が欲しいのか? テキストと画像のモデルにおけるコンセプトアソシエーションの調査
Authors: Salma Abdel Magid, Weiwei Pan, Simon Warchol, Grace Guo, Junsik Kim, Mahia Rahman, Hanspeter Pfister,
Abstract要約: テキスト・ツー・イメージ(T2I)モデルは、現実のアプリケーションでますます使われている。望ましいタスクに適したイメージを生成するために、これらのモデルを監査する必要性が高まっている。視覚言語モデルの条件分布を特徴付けるフレームワークであるConcept2Conceptを提案する。
参考スコア（独自算出の注目度）: 24.851041038347784
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image (T2I) models are increasingly used in impactful real-life applications. As such, there is a growing need to audit these models to ensure that they generate desirable, task-appropriate images. However, systematically inspecting the associations between prompts and generated content in a human-understandable way remains challenging. To address this, we propose Concept2Concept, a framework where we characterize conditional distributions of vision language models using interpretable concepts and metrics that can be defined in terms of these concepts. This characterization allows us to use our framework to audit models and prompt-datasets. To demonstrate, we investigate several case studies of conditional distributions of prompts, such as user-defined distributions or empirical, real-world distributions. Lastly, we implement Concept2Concept as an open-source interactive visualization tool to facilitate use by non-technical end-users. A demo is available at https://tinyurl.com/Concept2ConceptDemo.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)モデルは、実生活に影響を及ぼすアプリケーションにますます使われている。そのため、望ましいタスクに適した画像を生成するために、これらのモデルを監査する必要性が高まっている。しかし,プロンプトと生成コンテンツとの関係を人間に理解可能な方法で体系的に検査することは依然として困難である。そこで本研究では,これらの概念の観点で定義可能な解釈可能な概念とメトリクスを用いて,視覚言語モデルの条件分布を特徴付けるフレームワークであるConcept2Conceptを提案する。このキャラクタリゼーションにより、モデルやプロンプトデータセットの監査にフレームワークを使用することができます。本研究では,ユーザ定義分布や実世界の経験的分布など,プロンプトの条件分布に関するいくつかのケーススタディについて述べる。最後に,オープンソースインタラクティブな可視化ツールであるConcept2Conceptを実装した。デモはhttps://tinyurl.com/Concept2ConceptDemoで公開されている。

関連論文リスト

Insight: Interpretable Semantic Hierarchies in Vision-Language Encoders [52.94006363830628]
言語対応の視覚基盤モデルは、下流の様々なタスクで強く機能する。近年の研究では、これらの表現を人間の解釈可能な概念に分解するが、空間的接地が乏しく、画像分類に限られている。入力画像に人間が解釈可能で空間的に接地した、きめ細かい概念を提供する言語対応概念基盤モデルであるInsightを提案する。
論文参考訳（メタデータ） (2026-01-20T09:57:26Z)
Plug-and-Play Interpretable Responsible Text-to-Image Generation via Dual-Space Multi-facet Concept Control [28.030708956348864]
スケーラブルなT2I生成を実現するためのユニークな手法を提案する。鍵となるアイデアは、ターゲットのT2Iパイプラインを、所望のコンセプトに対して解釈可能な複合責任空間を学習する外部プラグアンドプレイ機構で蒸留することである。推論では、学習空間を利用して生成内容を変調する。
論文参考訳（メタデータ） (2025-03-24T04:06:39Z)
V2C-CBM: Building Concept Bottlenecks with Vision-to-Concept Tokenizer [19.177297480709512]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、イメージを人間の理解可能な概念に変換することによって、固有の解釈性を提供する。最近のアプローチでは、概念ボトルネックを構築するために、大きな言語モデルの知識を活用している。本研究では,CBMをマルチモーダルモデルから直接構築することで,これらの問題を回避する。
論文参考訳（メタデータ） (2025-01-09T05:12:38Z)
On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは彼らの公正さ、信頼性、そして誤用の可能性について批判的な議論を呼んだ組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文参考訳（メタデータ） (2024-11-21T09:46:55Z)
ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty [52.15933752463479]
ConceptMixはスケーラブルで、制御可能で、カスタマイズ可能なベンチマークです。テキスト・ツー・イメージ(T2I)モデルの合成生成能力を自動的に評価する。いくつかのモデル、特に開モデルの性能は k の増加とともに劇的に低下する。
論文参考訳（メタデータ） (2024-08-26T15:08:12Z)
A Concept-Based Explainability Framework for Large Multimodal Models [52.37626977572413]
本稿では,トークン表現に適用した辞書学習に基づくアプローチを提案する。これらの概念は、視覚とテキストの両方に意味論的に根ざしていることを示す。抽出したマルチモーダル概念は,テストサンプルの表現の解釈に有用であることを示す。
論文参考訳（メタデータ） (2024-06-12T10:48:53Z)
LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文参考訳（メタデータ） (2024-05-29T00:36:56Z)
Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文参考訳（メタデータ） (2024-04-21T16:35:16Z)
Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-18T07:28:37Z)
Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文参考訳（メタデータ） (2023-10-09T17:13:10Z)
Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文参考訳（メタデータ） (2023-09-08T16:45:56Z)
FLIRT: Feedback Loop In-context Red Teaming [79.63896510559357]
ブラックボックスモデルを評価し,その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文参考訳（メタデータ） (2023-08-08T14:03:08Z)
ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文参考訳（メタデータ） (2023-06-07T18:00:38Z)
ConceptX: A Framework for Latent Concept Analysis [21.760620298330235]
本稿では,言語モデル(pLM)における潜在表現空間の解釈と注釈付けを行うための,ループ型ヒューマン・イン・ザ・ループ・フレームワークであるConceptXを提案する。我々は、教師なしの手法を用いて、これらのモデルで学んだ概念を発見し、人間が概念の説明を生成するためのグラフィカルインターフェースを実現する。
論文参考訳（メタデータ） (2022-11-12T11:31:09Z)
Discovering Concepts in Learned Representations using Statistical Inference and Interactive Visualization [0.76146285961466]
概念発見は、深層学習の専門家とモデルエンドユーザーの間のギャップを埋めるために重要である。現在のアプローチには、手作りの概念データセットと、それを潜在空間方向に変換することが含まれる。本研究では,複数の仮説テストに基づく意味ある概念のユーザ発見と,インタラクティブな可視化に関する2つのアプローチを提案する。
論文参考訳（メタデータ） (2022-02-09T22:29:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。