論文の概要: From Pampas to Pixels: Fine-Tuning Diffusion Models for Ga\'ucho
Heritage
- arxiv url: http://arxiv.org/abs/2401.05520v1
- Date: Wed, 10 Jan 2024 19:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 02:07:52.820866
- Title: From Pampas to Pixels: Fine-Tuning Diffusion Models for Ga\'ucho
Heritage
- Title(参考訳): pampasからpixelsへ:ga\'ucho heritageの微調整拡散モデル
- Authors: Marcellus Amadeus, William Alberto Cruz Casta\~neda, Andr\'e Felipe
Zanella, Felipe Rodrigues Perche Mahlow
- Abstract要約: 本稿では, 地域文化概念, 歴史人物, 絶滅危惧種の表現における潜在拡散モデル (LDM) の可能性について考察する。
我々の目標は、生産モデルが地域の文化的・歴史的アイデンティティを捉え保存するのにどう役立つか、より広い理解に貢献することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI has become pervasive in society, witnessing significant
advancements in various domains. Particularly in the realm of Text-to-Image
(TTI) models, Latent Diffusion Models (LDMs), showcase remarkable capabilities
in generating visual content based on textual prompts. This paper addresses the
potential of LDMs in representing local cultural concepts, historical figures,
and endangered species. In this study, we use the cultural heritage of Rio
Grande do Sul (RS), Brazil, as an illustrative case. Our objective is to
contribute to the broader understanding of how generative models can help to
capture and preserve the cultural and historical identity of regions. The paper
outlines the methodology, including subject selection, dataset creation, and
the fine-tuning process. The results showcase the images generated, alongside
the challenges and feasibility of each concept. In conclusion, this work shows
the power of these models to represent and preserve unique aspects of diverse
regions and communities.
- Abstract(参考訳): ジェネレーティブAIは社会に広まり、様々な領域で大きな進歩をみせている。
特にテキスト・トゥ・イメージ・モデル(TTI)の領域では、テキスト・プロンプトに基づいて視覚的コンテンツを生成できる潜在拡散モデル(LDM)が顕著である。
本稿では, 地域文化概念, 歴史人物, 絶滅危惧種を表わす LDM の可能性について論じる。
本研究では,ブラジルのリオグランデ・ド・スル(rs)の文化遺産を例証として利用する。
我々の目標は、生産モデルが地域の文化的・歴史的アイデンティティを捉え保存するのにどのように役立つか、より広い理解に貢献することである。
本論文は、対象選択、データセット作成、微調整プロセスを含む方法論を概説する。
結果は,それぞれの概念の課題と実現可能性とともに,生成されたイメージを示す。
結論として,本研究は,これらのモデルが多様な地域やコミュニティの独特な側面を表現し,保存する力を示している。
関連論文リスト
- Generative AI in Vision: A Survey on Models, Metrics and Applications [0.0]
生成AIモデルは、現実的で多様なデータサンプルの作成を可能にすることで、さまざまな分野に革命をもたらした。
これらのモデルの中で、拡散モデルは高品質な画像、テキスト、オーディオを生成するための強力なアプローチとして現れている。
本稿では,AI拡散モデルとレガシモデルについて概観し,その基礎となる技術,異なる領域にわたる応用,課題について概説する。
論文 参考訳(メタデータ) (2024-02-26T07:47:12Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Environment-Specific People [59.14959529735115]
コンテキスト対応フルボディ生成のための新しい手法であるESPを提案する。
ESPは、環境写真から抽出された2Dポーズとコンテキストキューに条件付けされる。
本研究では,ESPがコンテキストフルボディ生成のタスクにおいて,最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T10:15:15Z) - Towards the Unification of Generative and Discriminative Visual
Foundation Model: A Survey [30.528346074194925]
視覚基礎モデル(VFM)はコンピュータビジョンの基盤となる発展の触媒となっている。
本稿では,VFMの重要軌道を概説し,その拡張性と生成タスクの熟練性を強調した。
今後のイノベーションの重要な方向は、生成的および差別的パラダイムの融合である。
論文 参考訳(メタデータ) (2023-12-15T19:17:15Z) - FoodFusion: A Latent Diffusion Model for Realistic Food Image Generation [69.91401809979709]
後期拡散モデル(LDMs)のような最先端画像生成モデルでは、視覚的に印象的な食品関連画像を生成する能力が実証されている。
本稿では,テキスト記述からリアルな食品画像の忠実な合成を目的とした,潜伏拡散モデルであるFoodFusionを紹介する。
FoodFusionモデルの開発には、大規模なオープンソースフードデータセットを活用することが含まれており、30万以上のキュレーションされたイメージキャプチャペアが生成される。
論文 参考訳(メタデータ) (2023-12-06T15:07:12Z) - State of the Art on Diffusion Models for Visual Computing [191.6168813012954]
本稿では,拡散モデルの基本数学的概念,実装の詳細,および一般的な安定拡散モデルの設計選択を紹介する。
また,拡散に基づく生成と編集に関する文献の急速な発展を概観する。
利用可能なデータセット、メトリクス、オープンな課題、社会的意味について議論する。
論文 参考訳(メタデータ) (2023-10-11T05:32:29Z) - (Re)framing Built Heritage through the Machinic Gaze [3.683202928838613]
機械学習とビジョン技術の普及は、遺産の新たな光学的レギュレーションを生み出している、と我々は主張する。
我々は,AIモデルによる遺産表現の再構成を概念化するために,「機械的視線」という用語を導入する。
論文 参考訳(メタデータ) (2023-10-06T23:48:01Z) - A Survey on Image-text Multimodal Models [2.278261164856621]
視覚情報とテキスト情報の収束は重要なフロンティアとして浮上し、画像テキストのマルチモーダルモデルの出現につながった。
本稿では,画像テキストマルチモーダルモデルの進化と現状を概観し,その応用価値,課題,潜在的研究軌跡について考察する。
論文 参考訳(メタデータ) (2023-09-23T15:21:15Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Diffusion Based Augmentation for Captioning and Retrieval in Cultural
Heritage [28.301944852273746]
本稿では,文化遺産領域における限られた注釈付きデータとドメインシフトの課題に対処する新しいアプローチを提案する。
生成的視覚言語モデルを活用することで、キャプションに条件付けされた多種多様なアート作品を生成することにより、アートデータセットを増強する。
論文 参考訳(メタデータ) (2023-08-14T13:59:04Z) - Inspecting the Geographical Representativeness of Images from
Text-to-Image Models [52.80961012689933]
本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。
国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。
多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
論文 参考訳(メタデータ) (2023-05-18T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。