論文の概要: T-HITL Effectively Addresses Problematic Associations in Image
Generation and Maintains Overall Visual Quality
- arxiv url: http://arxiv.org/abs/2402.17101v1
- Date: Tue, 27 Feb 2024 00:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:25:26.495380
- Title: T-HITL Effectively Addresses Problematic Associations in Image
Generation and Maintains Overall Visual Quality
- Title(参考訳): T-HITLは画像生成における問題関連に効果的に対応し、全体的な視覚的品質を維持する
- Authors: Susan Epstein, Li Chen, Alessandro Vecchiato, Ankit Jain
- Abstract要約: 我々は、人口集団と意味概念の間の問題的関連性の生成に焦点をあてる。
本稿では,問題のある関連の低減と視覚的品質の維持を両立させるため,T-HITL(two- Human-in-the-loop)を用いた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 52.5529784801908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI image models may inadvertently generate problematic
representations of people. Past research has noted that millions of users
engage daily across the world with these models and that the models, including
through problematic representations of people, have the potential to compound
and accelerate real-world discrimination and other harms (Bianchi et al, 2023).
In this paper, we focus on addressing the generation of problematic
associations between demographic groups and semantic concepts that may reflect
and reinforce negative narratives embedded in social data. Building on
sociological literature (Blumer, 1958) and mapping representations to model
behaviors, we have developed a taxonomy to study problematic associations in
image generation models. We explore the effectiveness of fine tuning at the
model level as a method to address these associations, identifying a potential
reduction in visual quality as a limitation of traditional fine tuning. We also
propose a new methodology with twice-human-in-the-loop (T-HITL) that promises
improvements in both reducing problematic associations and also maintaining
visual quality. We demonstrate the effectiveness of T-HITL by providing
evidence of three problematic associations addressed by T-HITL at the model
level. Our contributions to scholarship are two-fold. By defining problematic
associations in the context of machine learning models and generative AI, we
introduce a conceptual and technical taxonomy for addressing some of these
associations. Finally, we provide a method, T-HITL, that addresses these
associations and simultaneously maintains visual quality of image model
generations. This mitigation need not be a tradeoff, but rather an enhancement.
- Abstract(参考訳): 生成的AI画像モデルは、必然的に人々の問題表現を生成する。
過去の研究では、何百万人ものユーザーがこれらのモデルに毎日関与しており、問題のある人々の表現を含むモデルが現実世界の差別やその他の害を複雑化し、加速する可能性があると指摘している(Bianchi et al, 2023)。
本稿では,社会データに埋め込まれた否定的なナラティブを反映し,強化する意味概念と,人口統計群間の問題のある関連について考察する。
社会学文献(Blumer, 1958)とモデル行動へのマッピング表現に基づいて,画像生成モデルにおける問題関連性を研究する分類学を開発した。
これらの関連に対処する方法として,モデルレベルでの微調整の有効性を検討し,従来の微調整の限界として視覚品質の低下の可能性を明らかにする。
また、問題のある関連の低減と視覚的品質の維持を両立させるT-HITLによる新しい手法を提案する。
モデルレベルでのT-HITLによる3つの問題関連性を示すことによって,T-HITLの有効性を示す。
私たちの奨学金への貢献は2倍です。
機械学習モデルと生成AIの文脈で問題のある関連を定義することで、これらの関連に対処するための概念的および技術的分類を導入します。
最後に、これらの関連に対処し、画像モデル生成の視覚的品質を同時に維持するT-HITLを提案する。
この緩和はトレードオフである必要はなく、むしろ強化である。
関連論文リスト
- Autoregressive Models in Vision: A Survey [119.23742136065307]
本調査は、視覚に適用される自己回帰モデルに関する文献を包括的に調査する。
視覚的自己回帰モデルを,画素ベース,トークンベース,スケールベースを含む3つの一般的なサブカテゴリに分割する。
本稿では,画像生成,映像生成,3D生成,マルチモーダル生成など,コンピュータビジョンにおける自己回帰モデルの多面的分類を提案する。
論文 参考訳(メタデータ) (2024-11-08T17:15:12Z) - Understanding the Limits of Vision Language Models Through the Lens of the Binding Problem [37.27516441519387]
現状の視覚言語モデルは、人間がほぼ完璧な精度で実行する基本的多目的推論タスクにおいて、驚くほどの失敗を示します。
我々は、最先端のVLMのファジィ障害の多くは、結合問題に起因するものだと説明でき、これらの障害モードは、ヒト脳における迅速なフィードフォワード処理によって引き起こされる制限と著しく類似していることを発見した。
論文 参考訳(メタデータ) (2024-10-31T22:24:47Z) - A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。
従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。
オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。
提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Situating the social issues of image generation models in the model life cycle: a sociotechnical approach [20.99805435959377]
本稿では,画像生成モデルに関連する社会問題の包括的分類について報告する。
データ問題,知的財産権,バイアス,プライバシ,情報,文化,自然環境など,画像生成モデルから生じる7つのイシュークラスタを特定します。
画像生成モデルによって引き起こされるリスクは、大きな言語モデルによってもたらされるリスクと重大であると主張する。
論文 参考訳(メタデータ) (2023-11-30T08:32:32Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Sample-Efficient Learning of Novel Visual Concepts [7.398195748292981]
最先端のディープラーニングモデルは、数ショットで新しいオブジェクトを認識するのに苦労している。
我々は,記号的知識グラフを最先端認識モデルに組み込むことで,効果的に数発の分類を行うことができることを示す。
論文 参考訳(メタデータ) (2023-06-15T20:24:30Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。