論文の概要: From Pampas to Pixels: Fine-Tuning Diffusion Models for Ga\'ucho
Heritage
- arxiv url: http://arxiv.org/abs/2401.05520v1
- Date: Wed, 10 Jan 2024 19:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 02:07:52.820866
- Title: From Pampas to Pixels: Fine-Tuning Diffusion Models for Ga\'ucho
Heritage
- Title(参考訳): pampasからpixelsへ:ga\'ucho heritageの微調整拡散モデル
- Authors: Marcellus Amadeus, William Alberto Cruz Casta\~neda, Andr\'e Felipe
Zanella, Felipe Rodrigues Perche Mahlow
- Abstract要約: 本稿では, 地域文化概念, 歴史人物, 絶滅危惧種の表現における潜在拡散モデル (LDM) の可能性について考察する。
我々の目標は、生産モデルが地域の文化的・歴史的アイデンティティを捉え保存するのにどう役立つか、より広い理解に貢献することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI has become pervasive in society, witnessing significant
advancements in various domains. Particularly in the realm of Text-to-Image
(TTI) models, Latent Diffusion Models (LDMs), showcase remarkable capabilities
in generating visual content based on textual prompts. This paper addresses the
potential of LDMs in representing local cultural concepts, historical figures,
and endangered species. In this study, we use the cultural heritage of Rio
Grande do Sul (RS), Brazil, as an illustrative case. Our objective is to
contribute to the broader understanding of how generative models can help to
capture and preserve the cultural and historical identity of regions. The paper
outlines the methodology, including subject selection, dataset creation, and
the fine-tuning process. The results showcase the images generated, alongside
the challenges and feasibility of each concept. In conclusion, this work shows
the power of these models to represent and preserve unique aspects of diverse
regions and communities.
- Abstract(参考訳): ジェネレーティブAIは社会に広まり、様々な領域で大きな進歩をみせている。
特にテキスト・トゥ・イメージ・モデル(TTI)の領域では、テキスト・プロンプトに基づいて視覚的コンテンツを生成できる潜在拡散モデル(LDM)が顕著である。
本稿では, 地域文化概念, 歴史人物, 絶滅危惧種を表わす LDM の可能性について論じる。
本研究では,ブラジルのリオグランデ・ド・スル(rs)の文化遺産を例証として利用する。
我々の目標は、生産モデルが地域の文化的・歴史的アイデンティティを捉え保存するのにどのように役立つか、より広い理解に貢献することである。
本論文は、対象選択、データセット作成、微調整プロセスを含む方法論を概説する。
結果は,それぞれの概念の課題と実現可能性とともに,生成されたイメージを示す。
結論として,本研究は,これらのモデルが多様な地域やコミュニティの独特な側面を表現し,保存する力を示している。
関連論文リスト
- Crossroads of Continents: Automated Artifact Extraction for Cultural Adaptation with Large Multimodal Models [22.92083941222383]
まず,67か国の9,935のイメージと10のコンセプトクラスを含む大規模データセットであるDale Streetを紹介した。
次に、人工物抽出タスクによるモデルの深い文化理解を評価し、異なる国に関連する18,000以上の人工物を特定する。
最後に,文化から文化へイメージを適応させるために,高度に構成可能なパイプラインであるCultureAdaptを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:55:41Z) - Improving Geo-diversity of Generated Images with Contextualized Vendi Score Guidance [12.33170407159189]
最先端のテキスト・トゥ・イメージ生成モデルでは、日常の物体を現実世界の真の多様性で描写するのに苦労する。
本稿では, 遅延拡散モデルの後方ステップを導出し, サンプルの多様性を高めるための推論時間介入, 文脈化されたVendi Score Guidance(c-VSG)を導入する。
c-VSGは、画像の品質と一貫性を同時に維持または改善しつつ、最もパフォーマンスの悪い領域と平均の両方において、生成画像の多様性を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-06T23:35:51Z) - ORACLE: Leveraging Mutual Information for Consistent Character Generation with LoRAs in Diffusion Models [3.7599363231894185]
単一テキストプロンプトから一貫した文字表現を生成するための新しいフレームワークを提案する。
我々のフレームワークは、一貫した視覚的アイデンティティを持つ文字を生成する既存の手法よりも優れています。
論文 参考訳(メタデータ) (2024-06-04T23:39:08Z) - Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling [49.41822427811098]
本稿では, 自己回帰性潜伏前駆体を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを紹介する。
Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合する。
そこで我々は,Kaleidoが生成した潜在変数のガイダンスに忠実に従属していることを示し,画像生成過程を効果的に制御し,指示する能力を示す。
論文 参考訳(メタデータ) (2024-05-31T17:41:11Z) - Generative AI in Vision: A Survey on Models, Metrics and Applications [0.0]
生成AIモデルは、現実的で多様なデータサンプルの作成を可能にすることで、さまざまな分野に革命をもたらした。
これらのモデルの中で、拡散モデルは高品質な画像、テキスト、オーディオを生成するための強力なアプローチとして現れている。
本稿では,AI拡散モデルとレガシモデルについて概観し,その基礎となる技術,異なる領域にわたる応用,課題について概説する。
論文 参考訳(メタデータ) (2024-02-26T07:47:12Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Environment-Specific People [59.14959529735115]
コンテキスト対応フルボディ生成のための新しい手法であるESPを提案する。
ESPは、環境写真から抽出された2Dポーズとコンテキストキューに条件付けされる。
本研究では,ESPがコンテキストフルボディ生成のタスクにおいて,最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T10:15:15Z) - FoodFusion: A Latent Diffusion Model for Realistic Food Image Generation [69.91401809979709]
後期拡散モデル(LDMs)のような最先端画像生成モデルでは、視覚的に印象的な食品関連画像を生成する能力が実証されている。
本稿では,テキスト記述からリアルな食品画像の忠実な合成を目的とした,潜伏拡散モデルであるFoodFusionを紹介する。
FoodFusionモデルの開発には、大規模なオープンソースフードデータセットを活用することが含まれており、30万以上のキュレーションされたイメージキャプチャペアが生成される。
論文 参考訳(メタデータ) (2023-12-06T15:07:12Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Diffusion Based Augmentation for Captioning and Retrieval in Cultural
Heritage [28.301944852273746]
本稿では,文化遺産領域における限られた注釈付きデータとドメインシフトの課題に対処する新しいアプローチを提案する。
生成的視覚言語モデルを活用することで、キャプションに条件付けされた多種多様なアート作品を生成することにより、アートデータセットを増強する。
論文 参考訳(メタデータ) (2023-08-14T13:59:04Z) - Inspecting the Geographical Representativeness of Images from
Text-to-Image Models [52.80961012689933]
本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。
国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。
多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
論文 参考訳(メタデータ) (2023-05-18T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。