Fugu-MT 論文翻訳(概要): T-HITL Effectively Addresses Problematic Associations in Image Generation and Maintains Overall Visual Quality

論文の概要: T-HITL Effectively Addresses Problematic Associations in Image Generation and Maintains Overall Visual Quality

arxiv url: http://arxiv.org/abs/2402.17101v1
Date: Tue, 27 Feb 2024 00:29:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 18:25:26.495380
Title: T-HITL Effectively Addresses Problematic Associations in Image Generation and Maintains Overall Visual Quality
Title（参考訳）: T-HITLは画像生成における問題関連に効果的に対応し、全体的な視覚的品質を維持する
Authors: Susan Epstein, Li Chen, Alessandro Vecchiato, Ankit Jain
Abstract要約: 我々は、人口集団と意味概念の間の問題的関連性の生成に焦点をあてる。本稿では,問題のある関連の低減と視覚的品質の維持を両立させるため,T-HITL(two- Human-in-the-loop)を用いた新しい手法を提案する。
参考スコア（独自算出の注目度）: 52.5529784801908
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative AI image models may inadvertently generate problematic representations of people. Past research has noted that millions of users engage daily across the world with these models and that the models, including through problematic representations of people, have the potential to compound and accelerate real-world discrimination and other harms (Bianchi et al, 2023). In this paper, we focus on addressing the generation of problematic associations between demographic groups and semantic concepts that may reflect and reinforce negative narratives embedded in social data. Building on sociological literature (Blumer, 1958) and mapping representations to model behaviors, we have developed a taxonomy to study problematic associations in image generation models. We explore the effectiveness of fine tuning at the model level as a method to address these associations, identifying a potential reduction in visual quality as a limitation of traditional fine tuning. We also propose a new methodology with twice-human-in-the-loop (T-HITL) that promises improvements in both reducing problematic associations and also maintaining visual quality. We demonstrate the effectiveness of T-HITL by providing evidence of three problematic associations addressed by T-HITL at the model level. Our contributions to scholarship are two-fold. By defining problematic associations in the context of machine learning models and generative AI, we introduce a conceptual and technical taxonomy for addressing some of these associations. Finally, we provide a method, T-HITL, that addresses these associations and simultaneously maintains visual quality of image model generations. This mitigation need not be a tradeoff, but rather an enhancement.
Abstract（参考訳）: 生成的AI画像モデルは、必然的に人々の問題表現を生成する。過去の研究では、何百万人ものユーザーがこれらのモデルに毎日関与しており、問題のある人々の表現を含むモデルが現実世界の差別やその他の害を複雑化し、加速する可能性があると指摘している(Bianchi et al, 2023)。本稿では,社会データに埋め込まれた否定的なナラティブを反映し,強化する意味概念と,人口統計群間の問題のある関連について考察する。社会学文献(Blumer, 1958)とモデル行動へのマッピング表現に基づいて,画像生成モデルにおける問題関連性を研究する分類学を開発した。これらの関連に対処する方法として,モデルレベルでの微調整の有効性を検討し,従来の微調整の限界として視覚品質の低下の可能性を明らかにする。また、問題のある関連の低減と視覚的品質の維持を両立させるT-HITLによる新しい手法を提案する。モデルレベルでのT-HITLによる3つの問題関連性を示すことによって,T-HITLの有効性を示す。私たちの奨学金への貢献は2倍です。機械学習モデルと生成AIの文脈で問題のある関連を定義することで、これらの関連に対処するための概念的および技術的分類を導入します。最後に、これらの関連に対処し、画像モデル生成の視覚的品質を同時に維持するT-HITLを提案する。この緩和はトレードオフである必要はなく、むしろ強化である。

関連論文リスト

Interactive Visual Assessment for Text-to-Image Generation Models [28.526897072724662]
生成モデルのための動的インタラクティブビジュアルアセスメントフレームワークDyEvalを提案する。 DyEvalは直感的なビジュアルインターフェースを備えており、ユーザーは対話的にモデルの振る舞いを探索し分析することができる。我々のフレームワークは、生成モデルを改善するための貴重な洞察を提供し、視覚生成システムの信頼性と能力を向上するための幅広い意味を持つ。
論文参考訳（メタデータ） (2024-11-23T10:06:18Z)
Autoregressive Models in Vision: A Survey [119.23742136065307]
本調査は、視覚に適用される自己回帰モデルに関する文献を包括的に調査する。視覚的自己回帰モデルを,画素ベース,トークンベース,スケールベースを含む3つの一般的なサブカテゴリに分割する。本稿では,画像生成,映像生成,3D生成,マルチモーダル生成など,コンピュータビジョンにおける自己回帰モデルの多面的分類を提案する。
論文参考訳（メタデータ） (2024-11-08T17:15:12Z)
Understanding the Limits of Vision Language Models Through the Lens of the Binding Problem [37.27516441519387]
現状の視覚言語モデルは、人間がほぼ完璧な精度で実行する基本的多目的推論タスクにおいて、驚くほどの失敗を示します。我々は、最先端のVLMのファジィ障害の多くは、結合問題に起因するものだと説明でき、これらの障害モードは、ヒト脳における迅速なフィードフォワード処理によって引き起こされる制限と著しく類似していることを発見した。
論文参考訳（メタデータ） (2024-10-31T22:24:47Z)
A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文参考訳（メタデータ） (2024-10-19T11:11:09Z)
Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文参考訳（メタデータ） (2024-05-31T12:20:02Z)
Situating the social issues of image generation models in the model life cycle: a sociotechnical approach [20.99805435959377]
本稿では,画像生成モデルに関連する社会問題の包括的分類について報告する。データ問題,知的財産権,バイアス,プライバシ,情報,文化,自然環境など,画像生成モデルから生じる7つのイシュークラスタを特定します。画像生成モデルによって引き起こされるリスクは、大きな言語モデルによってもたらされるリスクと重大であると主張する。
論文参考訳（メタデータ） (2023-11-30T08:32:32Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
Sample-Efficient Learning of Novel Visual Concepts [7.398195748292981]
最先端のディープラーニングモデルは、数ショットで新しいオブジェクトを認識するのに苦労している。我々は,記号的知識グラフを最先端認識モデルに組み込むことで,効果的に数発の分類を行うことができることを示す。
論文参考訳（メタデータ） (2023-06-15T20:24:30Z)
Causal Reasoning Meets Visual Representation Learning: A Prospective Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文参考訳（メタデータ） (2022-04-26T02:22:28Z)
On the Opportunities and Risks of Foundation Models [256.61956234436553]
これらのモデルの基礎モデルは、批判的に中心的だが不完全な性格を根底から立証するものです。本報告では,基礎モデルの可能性とリスクについて概説する。これらの疑問に対処するためには、基礎モデルに関する重要な研究の多くは、深い学際的なコラボレーションが必要であると信じている。
論文参考訳（メタデータ） (2021-08-16T17:50:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。