論文の概要: T-HITL Effectively Addresses Problematic Associations in Image
Generation and Maintains Overall Visual Quality
- arxiv url: http://arxiv.org/abs/2402.17101v1
- Date: Tue, 27 Feb 2024 00:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:25:26.495380
- Title: T-HITL Effectively Addresses Problematic Associations in Image
Generation and Maintains Overall Visual Quality
- Title(参考訳): T-HITLは画像生成における問題関連に効果的に対応し、全体的な視覚的品質を維持する
- Authors: Susan Epstein, Li Chen, Alessandro Vecchiato, Ankit Jain
- Abstract要約: 我々は、人口集団と意味概念の間の問題的関連性の生成に焦点をあてる。
本稿では,問題のある関連の低減と視覚的品質の維持を両立させるため,T-HITL(two- Human-in-the-loop)を用いた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 52.5529784801908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI image models may inadvertently generate problematic
representations of people. Past research has noted that millions of users
engage daily across the world with these models and that the models, including
through problematic representations of people, have the potential to compound
and accelerate real-world discrimination and other harms (Bianchi et al, 2023).
In this paper, we focus on addressing the generation of problematic
associations between demographic groups and semantic concepts that may reflect
and reinforce negative narratives embedded in social data. Building on
sociological literature (Blumer, 1958) and mapping representations to model
behaviors, we have developed a taxonomy to study problematic associations in
image generation models. We explore the effectiveness of fine tuning at the
model level as a method to address these associations, identifying a potential
reduction in visual quality as a limitation of traditional fine tuning. We also
propose a new methodology with twice-human-in-the-loop (T-HITL) that promises
improvements in both reducing problematic associations and also maintaining
visual quality. We demonstrate the effectiveness of T-HITL by providing
evidence of three problematic associations addressed by T-HITL at the model
level. Our contributions to scholarship are two-fold. By defining problematic
associations in the context of machine learning models and generative AI, we
introduce a conceptual and technical taxonomy for addressing some of these
associations. Finally, we provide a method, T-HITL, that addresses these
associations and simultaneously maintains visual quality of image model
generations. This mitigation need not be a tradeoff, but rather an enhancement.
- Abstract(参考訳): 生成的AI画像モデルは、必然的に人々の問題表現を生成する。
過去の研究では、何百万人ものユーザーがこれらのモデルに毎日関与しており、問題のある人々の表現を含むモデルが現実世界の差別やその他の害を複雑化し、加速する可能性があると指摘している(Bianchi et al, 2023)。
本稿では,社会データに埋め込まれた否定的なナラティブを反映し,強化する意味概念と,人口統計群間の問題のある関連について考察する。
社会学文献(Blumer, 1958)とモデル行動へのマッピング表現に基づいて,画像生成モデルにおける問題関連性を研究する分類学を開発した。
これらの関連に対処する方法として,モデルレベルでの微調整の有効性を検討し,従来の微調整の限界として視覚品質の低下の可能性を明らかにする。
また、問題のある関連の低減と視覚的品質の維持を両立させるT-HITLによる新しい手法を提案する。
モデルレベルでのT-HITLによる3つの問題関連性を示すことによって,T-HITLの有効性を示す。
私たちの奨学金への貢献は2倍です。
機械学習モデルと生成AIの文脈で問題のある関連を定義することで、これらの関連に対処するための概念的および技術的分類を導入します。
最後に、これらの関連に対処し、画像モデル生成の視覚的品質を同時に維持するT-HITLを提案する。
この緩和はトレードオフである必要はなく、むしろ強化である。
関連論文リスト
- Situating the social issues of image generation models in the model life
cycle: a sociotechnical approach [22.52767766394583]
本稿では,画像生成モデルに関連する社会問題の包括的分類について報告する。
データ問題,知的財産権,バイアス,プライバシ,情報,文化,自然環境など,画像生成モデルから生じる7つのイシュークラスタを特定します。
画像生成モデルによって引き起こされるリスクは、大きな言語モデルによってもたらされるリスクと重大であると主張する。
論文 参考訳(メタデータ) (2023-11-30T08:32:32Z) - Language Agents for Detecting Implicit Stereotypes in Text-to-image
Models at Scale [45.64096601242646]
テキスト・ツー・イメージモデルにおけるステレオタイプ検出に適した新しいエージェントアーキテクチャを提案する。
複数のオープンテキストデータセットに基づいたステレオタイプ関連ベンチマークを構築した。
これらのモデルは、個人的特性に関する特定のプロンプトに関して、深刻なステレオタイプを示すことが多い。
論文 参考訳(メタデータ) (2023-10-18T08:16:29Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Sample-Efficient Learning of Novel Visual Concepts [7.398195748292981]
最先端のディープラーニングモデルは、数ショットで新しいオブジェクトを認識するのに苦労している。
我々は,記号的知識グラフを最先端認識モデルに組み込むことで,効果的に数発の分類を行うことができることを示す。
論文 参考訳(メタデータ) (2023-06-15T20:24:30Z) - Foundation models in brief: A historical, socio-technical focus [2.5991265608180396]
ディープラーニングをスケールアップすることで、将来のAI開発には、ファンデーションモデルが破壊的になる可能性がある。
モデルは自然言語処理やコンピュータビジョンといった分野における様々なタスクにおいて最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-17T22:11:33Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - On the Opportunities and Risks of Foundation Models [256.61956234436553]
これらのモデルの基礎モデルは、批判的に中心的だが不完全な性格を根底から立証するものです。
本報告では,基礎モデルの可能性とリスクについて概説する。
これらの疑問に対処するためには、基礎モデルに関する重要な研究の多くは、深い学際的なコラボレーションが必要であると信じている。
論文 参考訳(メタデータ) (2021-08-16T17:50:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。