論文の概要: Speaking images. A novel framework for the automated self-description of artworks
- arxiv url: http://arxiv.org/abs/2506.05368v1
- Date: Wed, 28 May 2025 09:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 03:13:19.012221
- Title: Speaking images. A novel framework for the automated self-description of artworks
- Title(参考訳): アートワークの自動自己記述のための新しいフレームワーク
- Authors: Valentine Bernasconi, Gustavo Marfia,
- Abstract要約: ジェネレーティブAIの最近のブレークスルーは、芸術と文化遺産の領域における新しい研究視点への扉を開いた。
本稿では,オープンソースの大規模言語,顔検出,テキスト・音声・音声・アニメーションモデルを用いた自己説明型文化アーティファクトの創出に向けた新たな枠組みを提案する。
- 参考スコア(独自算出の注目度): 0.6138671548064356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in generative AI have opened the door to new research perspectives in the domain of art and cultural heritage, where a large number of artifacts have been digitized. There is a need for innovation to ease the access and highlight the content of digital collections. Such innovations develop into creative explorations of the digital image in relation to its malleability and contemporary interpretation, in confrontation to the original historical object. Based on the concept of the autonomous image, we propose a new framework towards the production of self-explaining cultural artifacts using open-source large-language, face detection, text-to-speech and audio-to-animation models. The goal is to start from a digitized artwork and to automatically assemble a short video of the latter where the main character animates to explain its content. The whole process questions cultural biases encapsulated in large-language models, the potential of digital images and deepfakes of artworks for educational purposes, along with concerns of the field of art history regarding such creative diversions.
- Abstract(参考訳): 生成AIの最近のブレークスルーは、多くのアーティファクトがデジタル化されている芸術と文化遺産の領域における新しい研究視点への扉を開いた。
デジタルコレクションのアクセスを容易にし、コンテンツをハイライトするイノベーションが必要だ。
このような革新は、デジタルイメージの適合性と現代的解釈に関連する創造的な探究へと発展し、元の歴史的対象と対立する。
自律画像の概念に基づいて,オープンソースの大言語,顔検出,テキスト・音声・音声・アニメーションモデルを用いた自己説明型文化アーティファクトの創出に向けた新たな枠組みを提案する。
ゴールは、デジタル化されたアートワークから始め、メインキャラクターがコンテンツを説明するためにアリメイトする後者のショートビデオを自動的に組み立てることである。
このプロセス全体では、大きな言語モデルにカプセル化された文化的バイアス、デジタルイメージの可能性、教育目的のためのアートワークのディープフェイク、そしてそのような創造的なディバージョンに関する芸術史の分野に関する懸念に疑問が呈される。
関連論文リスト
- Diffusion-Based Visual Art Creation: A Survey and New Perspectives [51.522935314070416]
本調査は,拡散に基づく視覚芸術創造の新たな領域を探求し,その発展を芸術的,技術的両面から検討する。
本研究は,芸術的要件が技術的課題にどのように変換されるかを明らかにし,視覚芸術創造における拡散法の設計と応用を強調した。
我々は、AIシステムが芸術的知覚と創造性において人間の能力をエミュレートし、潜在的に増強するメカニズムに光を当てることを目指している。
論文 参考訳(メタデータ) (2024-08-22T04:49:50Z) - Equivalence: An analysis of artists' roles with Image Generative AI from Conceptual Art perspective through an interactive installation design practice [16.063735487844628]
本研究では、アーティストが高度なテキストから画像生成AIモデルとどのように相互作用するかを検討する。
この枠組みを実証するために,「等価性」と題されたケーススタディでは,ユーザの音声入力を連続的に変化する絵画に変換する。
この研究は、アーティストの役割に対する理解を深め、画像生成AIで作成されたアートに固有の創造的側面に対する深い評価を促進することを目的としている。
論文 参考訳(メタデータ) (2024-04-29T02:45:23Z) - CreativeSynth: Cross-Art-Attention for Artistic Image Synthesis with Multimodal Diffusion [73.08710648258985]
レイアウト、視点、形状、意味といった重要な絵の属性は、しばしばスタイル転送によって伝達され、表現されない。
大規模な事前訓練された画像生成モデルは、大量の高品質な画像を合成できることを実証している。
我々の主要なアイデアは、スタイルを現実の世界に移すのではなく、多モーダルな意味情報を合成ガイドとしてアートに組み込むことである。
論文 参考訳(メタデータ) (2024-01-25T10:42:09Z) - No Longer Trending on Artstation: Prompt Analysis of Generative AI Art [7.64671395172401]
私たちは300万以上のプロンプトとそれらが生成する画像を収集し、分析します。
本研究は, 表面美学, 文化規範の強化, 一般的な表現, イメージに重点を置いていることを示す。
論文 参考訳(メタデータ) (2024-01-24T08:03:13Z) - DreamCreature: Crafting Photorealistic Virtual Creatures from
Imagination [140.1641573781066]
ターゲット概念のラベルなしイメージのセットを前提として、我々は、新しいハイブリッド概念を創出できるT2Iモデルをトレーニングすることを目指している。
そこで我々はDreamCreatureと呼ばれる新しい手法を提案し,その基盤となるサブ概念を同定し抽出する。
したがって、T2Iは忠実な構造とフォトリアリスティックな外観を持つ新しい概念を生成するのに適応する。
論文 参考訳(メタデータ) (2023-11-27T01:24:31Z) - There Is a Digital Art History [1.0878040851637998]
我々はJohanna Drucker氏の質問を再考する。
我々は,「デジタル」美術史へのパラダイムシフトを示唆する2つの主要な側面に着目した分析を行った。
論文 参考訳(メタデータ) (2023-08-14T21:21:03Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z) - A Framework and Dataset for Abstract Art Generation via CalligraphyGAN [0.0]
本研究では,コンディショナル・ジェネレーティブ・アドバイザリ・ネットワークと文脈ニューラル言語モデルに基づく創造的枠組みを提示し,抽象アートワークを生成する。
私たちの作品は中国書道に触発され、字そのものが美的絵画である独特の視覚芸術形式である。
論文 参考訳(メタデータ) (2020-12-02T16:24:20Z) - State of the Art on Neural Rendering [141.22760314536438]
我々は,古典的コンピュータグラフィックス技術と深層生成モデルを組み合わせることで,制御可能かつフォトリアリスティックな出力を得るアプローチに焦点をあてる。
本報告は,新しいビュー合成,セマンティック写真操作,顔と身体の再現,リライティング,自由視点ビデオ,バーチャルおよび拡張現実テレプレゼンスのためのフォトリアリスティックアバターの作成など,記述されたアルゴリズムの多くの重要なユースケースに焦点をあてる。
論文 参考訳(メタデータ) (2020-04-08T04:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。