Fugu-MT 論文翻訳(概要): Explain Me the Painting: Multi-Topic Knowledgeable Art Description Generation

論文の概要: Explain Me the Painting: Multi-Topic Knowledgeable Art Description Generation

arxiv url: http://arxiv.org/abs/2109.05743v1
Date: Mon, 13 Sep 2021 07:08:46 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-14 16:16:33.889169
Title: Explain Me the Painting: Multi-Topic Knowledgeable Art Description Generation
Title（参考訳）: 絵画の解説:多分野の知識に富んだアート記述生成
Authors: Zechen Bai, Yuta Nakashima, Noa Garcia
Abstract要約: 本研究は、美術作品の包括的記述を生成することにより、芸術を人間に近づける枠組みを提示する。このフレームワークは、量的および質的両方の徹底的な分析と、比較人間の評価によって検証される。
参考スコア（独自算出の注目度）: 26.099306167995376
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Have you ever looked at a painting and wondered what is the story behind it? This work presents a framework to bring art closer to people by generating comprehensive descriptions of fine-art paintings. Generating informative descriptions for artworks, however, is extremely challenging, as it requires to 1) describe multiple aspects of the image such as its style, content, or composition, and 2) provide background and contextual knowledge about the artist, their influences, or the historical period. To address these challenges, we introduce a multi-topic and knowledgeable art description framework, which modules the generated sentences according to three artistic topics and, additionally, enhances each description with external knowledge. The framework is validated through an exhaustive analysis, both quantitative and qualitative, as well as a comparative human evaluation, demonstrating outstanding results in terms of both topic diversity and information veracity.
Abstract（参考訳）: あなたは絵を見て、その背後にある物語が何なのか疑問に思ったことがありますか。本研究は、美術絵画の総合的な描写を創り出すことにより、芸術を人々に近づける枠組みを提案する。しかし、芸術作品に関する情報的な記述を生成することは、非常に難しい。 1)そのスタイル、内容、構成など、画像の複数の側面を記述し、 2)芸術家、その影響、歴史に関する背景的・文脈的知識を提供する。これらの課題に対処するために,我々は,生成した文を3つの芸術的話題に従ってモジュール化し,さらに,各記述を外部知識で強化する多面的かつ知識に富んだアート記述フレームワークを提案する。この枠組みは、量的および質的両方の徹底的な分析および比較人間の評価を通じて検証され、トピックの多様性と情報の妥当性の両方の観点から優れた結果を示す。

関連論文リスト

ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding [16.9945713458689]
ArtRAGは、構造化知識と検索強化世代(RAG)を組み合わせた新しいフレームワークである。推測時には、構造化された検索者が意味的およびトポロジカルなサブグラフを選択して生成をガイドする。 SemArtとArtpediaのデータセットの実験では、ArtRAGがいくつかの高度に訓練されたベースラインを上回っている。
論文参考訳（メタデータ） (2025-05-09T13:08:27Z)
VitaGlyph: Vitalizing Artistic Typography with Flexible Dual-branch Diffusion Models [53.59400446543756]
柔軟な芸術的タイポグラフィーを実現するために,二枝・無訓練の手法であるVitaGlyphを導入する。 VitaGlyphは入力文字を被写体と周囲からなるシーンとして扱い、次に幾何変換の度合いでそれらをレンダリングする。実験結果から、VitaGlyphは芸術性や可読性の向上だけでなく、複数のカスタマイズ概念を表現できることがわかった。
論文参考訳（メタデータ） (2024-10-02T16:48:47Z)
KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph [24.586916324061168]
本稿では,アートワーク開発のための知識付加型視覚言語モデルを提案する。 KALEはメタデータを2つの方法で組み込む: 第一に直接テキスト入力、第二にマルチモーダルなヘテロジニアス知識グラフである。実験結果から,KALEは複数のアートデータセットにまたがる既存の最先端の作業に対して高い性能を発揮することが示された。
論文参考訳（メタデータ） (2024-09-17T06:39:18Z)
GalleryGPT: Analyzing Paintings with Large Multimodal Models [64.98398357569765]
美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。アートワークを自動解析する以前の作業は、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。 LLaVAアーキテクチャに基づいて微調整されたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを提案する。
論文参考訳（メタデータ） (2024-08-01T11:52:56Z)
CreativeSynth: Cross-Art-Attention for Artistic Image Synthesis with Multimodal Diffusion [73.08710648258985]
レイアウト、視点、形状、意味といった重要な絵の属性は、しばしばスタイル転送によって伝達され、表現されない。大規模な事前訓練された画像生成モデルは、大量の高品質な画像を合成できることを実証している。我々の主要なアイデアは、スタイルを現実の世界に移すのではなく、多モーダルな意味情報を合成ガイドとしてアートに組み込むことである。
論文参考訳（メタデータ） (2024-01-25T10:42:09Z)
Impressions: Understanding Visual Semiotics and Aesthetic Impact [66.40617566253404]
画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
論文参考訳（メタデータ） (2023-10-27T04:30:18Z)
Text-Guided Synthesis of Eulerian Cinemagraphs [81.20353774053768]
テキスト記述からシネマグラフを作成する完全自動化された方法であるText2Cinemagraphを紹介する。連続した動きと反復的なテクスチャを示す流れの川や漂流する雲などの流体要素のシネマグラフに焦点を当てる。
論文参考訳（メタデータ） (2023-07-06T17:59:31Z)
Not Only Generative Art: Stable Diffusion for Content-Style Disentanglement in Art Analysis [23.388338598125195]
五屋(ごや)は、近年の創作モデルで捉えた芸術的知識を蒸留して、内容や様式を乱す方法である。実験により、合成された画像は、アートワークの実際の分布のプロキシとして十分に役立っていることが示された。
論文参考訳（メタデータ） (2023-04-20T13:00:46Z)
Inversion-Based Style Transfer with Diffusion Models [78.93863016223858]
以前の任意の例として誘導された芸術的画像生成法は、しばしば形状変化の制御や要素の伝達に失敗する。画像のキー情報を効率よく正確に学習できるインバージョンベースのスタイル転送手法(InST)を提案する。
論文参考訳（メタデータ） (2022-11-23T18:44:25Z)
Language Does More Than Describe: On The Lack Of Figurative Speech in Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文参考訳（メタデータ） (2022-10-19T14:20:05Z)
Automatic analysis of artistic paintings using information-based measures [1.25456674968456]
美術絵画に存在する隠されたパターンと関係を,その複雑さを分析して同定する。正規化圧縮(NC)とブロック分解法(BDM)を91名の著者による4,266点の絵のデータセットに適用した。アーティストのスタイル、その芸術的影響、および共有技術に関する重要な情報を記述した指紋を定義する。
論文参考訳（メタデータ） (2021-02-02T21:40:30Z)
Understanding Compositional Structures in Art Historical Images using Pose and Gaze Priors [20.98603643788824]
画像合成は、アーティストとそのアートワークを研究するために、画像内の相互作用を分析するのに有用である。本研究では,既存の機械学習技術を用いて,このプロセスの自動化を試みる。本手法は, (a) 絵画のアクション領域とアクションラインの検出, (b) 前景と背景のポーズに基づくセグメンテーションの2つの中心的なテーマに焦点を当てる。
論文参考訳（メタデータ） (2020-09-08T15:01:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。