Fugu-MT 論文翻訳(概要): From Pampas to Pixels: Fine-Tuning Diffusion Models for Ga\'ucho Heritage

論文の概要: From Pampas to Pixels: Fine-Tuning Diffusion Models for Ga\'ucho Heritage

arxiv url: http://arxiv.org/abs/2401.05520v1
Date: Wed, 10 Jan 2024 19:34:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-13 02:07:52.820866
Title: From Pampas to Pixels: Fine-Tuning Diffusion Models for Ga\'ucho Heritage
Title（参考訳）: pampasからpixelsへ:ga\'ucho heritageの微調整拡散モデル
Authors: Marcellus Amadeus, William Alberto Cruz Casta\~neda, Andr\'e Felipe Zanella, Felipe Rodrigues Perche Mahlow
Abstract要約: 本稿では, 地域文化概念, 歴史人物, 絶滅危惧種の表現における潜在拡散モデル (LDM) の可能性について考察する。我々の目標は、生産モデルが地域の文化的・歴史的アイデンティティを捉え保存するのにどう役立つか、より広い理解に貢献することである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative AI has become pervasive in society, witnessing significant advancements in various domains. Particularly in the realm of Text-to-Image (TTI) models, Latent Diffusion Models (LDMs), showcase remarkable capabilities in generating visual content based on textual prompts. This paper addresses the potential of LDMs in representing local cultural concepts, historical figures, and endangered species. In this study, we use the cultural heritage of Rio Grande do Sul (RS), Brazil, as an illustrative case. Our objective is to contribute to the broader understanding of how generative models can help to capture and preserve the cultural and historical identity of regions. The paper outlines the methodology, including subject selection, dataset creation, and the fine-tuning process. The results showcase the images generated, alongside the challenges and feasibility of each concept. In conclusion, this work shows the power of these models to represent and preserve unique aspects of diverse regions and communities.
Abstract（参考訳）: ジェネレーティブAIは社会に広まり、様々な領域で大きな進歩をみせている。特にテキスト・トゥ・イメージ・モデル(TTI)の領域では、テキスト・プロンプトに基づいて視覚的コンテンツを生成できる潜在拡散モデル(LDM)が顕著である。本稿では, 地域文化概念, 歴史人物, 絶滅危惧種を表わす LDM の可能性について論じる。本研究では,ブラジルのリオグランデ・ド・スル(rs)の文化遺産を例証として利用する。我々の目標は、生産モデルが地域の文化的・歴史的アイデンティティを捉え保存するのにどのように役立つか、より広い理解に貢献することである。本論文は、対象選択、データセット作成、微調整プロセスを含む方法論を概説する。結果は,それぞれの概念の課題と実現可能性とともに,生成されたイメージを示す。結論として,本研究は,これらのモデルが多様な地域やコミュニティの独特な側面を表現し,保存する力を示している。

関連論文リスト

Personalized Image Generation with Deep Generative Models: A Decade Survey [51.26287478042516]
本稿では、様々な生成モデルにまたがって、一般化されたパーソナライズされた画像生成についてレビューする。まず、異なる生成モデル間でパーソナライズプロセスを標準化する統合フレームワークを定義する。次に、各生成モデルにおけるパーソナライズ手法の詳細な分析を行い、そのユニークな貢献と革新を強調します。
論文参考訳（メタデータ） (2025-02-18T17:34:04Z)
Diffusion Models Through a Global Lens: Are They Culturally Inclusive? [15.991121392458748]
我々はCultDiffベンチマークを導入し、最先端の拡散モデルを評価する。これらのモデルは、建築、衣服、食品の文化的なアーティファクトを生成するのに失敗することが多いことを示します。我々は、カルトディフ-Sというニューラルネットワークによる画像画像類似度測定法を開発し、文化的アーティファクトを用いた実画像と生成画像の人間の判断を予測する。
論文参考訳（メタデータ） (2025-02-13T03:05:42Z)
Understanding the World's Museums through Vision-Language Reasoning [49.976422699906706]
博物館は、様々なエポック、文明、地域にまたがる文化遺産や歴史的遺物の重要な保管物として機能している。我々は、世界中の展示のために、標準的な博物館カタログフォーマットで65万枚の画像と2億枚の質問回答ペアの大規模なデータセットを収集し、キュレートする。 BLIPモデルと視覚言語対応の埋め込みを持つが、大きな言語モデルの表現力に欠ける2つのVLMと、視覚言語推論能力に富んだ強力な命令チューニング LLaVA モデルを訓練する。
論文参考訳（メタデータ） (2024-12-02T10:54:31Z)
Illustrating Classic Brazilian Books using a Text-To-Image Diffusion Model [0.4374837991804086]
潜在拡散モデル(LDMs)は、AI能力の領域におけるパラダイムシフトを意味する。本稿は、文学作品の描写に安定拡散 LDM を用いることの可能性について考察する。
論文参考訳（メタデータ） (2024-08-01T13:28:15Z)
GalleryGPT: Analyzing Paintings with Large Multimodal Models [64.98398357569765]
美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。アートワークを自動解析する以前の作業は、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。 LLaVAアーキテクチャに基づいて微調整されたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを提案する。
論文参考訳（メタデータ） (2024-08-01T11:52:56Z)
Crossroads of Continents: Automated Artifact Extraction for Cultural Adaptation with Large Multimodal Models [22.92083941222383]
DALL-E 3によって生成され、人間によって検証される大規模なデータセットであるDalleStreetを紹介する。我々は,オープンソース(LLaVA)とクローズドソース(GPT-4V)の両方のモデルを用いて,地理的サブリージョンレベルでの文化的理解の相違を見出した。以上の結果から,LMMの文化的能力の微妙なイメージが浮かび上がっており,文化認識システムの開発の必要性が浮かび上がっている。
論文参考訳（メタデータ） (2024-07-02T08:55:41Z)
Improving Geo-diversity of Generated Images with Contextualized Vendi Score Guidance [12.33170407159189]
最先端のテキスト・トゥ・イメージ生成モデルでは、日常の物体を現実世界の真の多様性で描写するのに苦労する。本稿では, 遅延拡散モデルの後方ステップを導出し, サンプルの多様性を高めるための推論時間介入, 文脈化されたVendi Score Guidance(c-VSG)を導入する。 c-VSGは、画像の品質と一貫性を同時に維持または改善しつつ、最もパフォーマンスの悪い領域と平均の両方において、生成画像の多様性を著しく向上させる。
論文参考訳（メタデータ） (2024-06-06T23:35:51Z)
ORACLE: Leveraging Mutual Information for Consistent Character Generation with LoRAs in Diffusion Models [3.7599363231894185]
単一テキストプロンプトから一貫した文字表現を生成するための新しいフレームワークを提案する。我々のフレームワークは、一貫した視覚的アイデンティティを持つ文字を生成する既存の手法よりも優れています。
論文参考訳（メタデータ） (2024-06-04T23:39:08Z)
Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling [49.41822427811098]
本稿では, 自己回帰性潜伏前駆体を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを紹介する。 Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合する。そこで我々は,Kaleidoが生成した潜在変数のガイダンスに忠実に従属していることを示し,画像生成過程を効果的に制御し,指示する能力を示す。
論文参考訳（メタデータ） (2024-05-31T17:41:11Z)
Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文参考訳（メタデータ） (2024-02-14T18:16:54Z)
FoodFusion: A Latent Diffusion Model for Realistic Food Image Generation [69.91401809979709]
後期拡散モデル(LDMs)のような最先端画像生成モデルでは、視覚的に印象的な食品関連画像を生成する能力が実証されている。本稿では,テキスト記述からリアルな食品画像の忠実な合成を目的とした,潜伏拡散モデルであるFoodFusionを紹介する。 FoodFusionモデルの開発には、大規模なオープンソースフードデータセットを活用することが含まれており、30万以上のキュレーションされたイメージキャプチャペアが生成される。
論文参考訳（メタデータ） (2023-12-06T15:07:12Z)
RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文参考訳（メタデータ） (2023-09-02T03:27:20Z)
Diffusion Based Augmentation for Captioning and Retrieval in Cultural Heritage [28.301944852273746]
本稿では,文化遺産領域における限られた注釈付きデータとドメインシフトの課題に対処する新しいアプローチを提案する。生成的視覚言語モデルを活用することで、キャプションに条件付けされた多種多様なアート作品を生成することにより、アートデータセットを増強する。
論文参考訳（メタデータ） (2023-08-14T13:59:04Z)
Inspecting the Geographical Representativeness of Images from Text-to-Image Models [52.80961012689933]
本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
論文参考訳（メタデータ） (2023-05-18T16:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。