Fugu-MT 論文翻訳(概要): Context-Infused Visual Grounding for Art

論文の概要: Context-Infused Visual Grounding for Art

arxiv url: http://arxiv.org/abs/2410.12369v1
Date: Wed, 16 Oct 2024 08:41:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.220042
Title: Context-Infused Visual Grounding for Art
Title（参考訳）: テクスト用コンテキスト注入型視覚グラウンド
Authors: Selina Khan, Nanne van Noord,
Abstract要約: 本稿では,CIGAr(Context-Infused GroundingDINO for Art)について述べる。さらに,手動で注釈付きフレーズグラウンドアノテーションを付加した新しいデータセットUkiyo-eVGを提案する。
参考スコア（独自算出の注目度）: 6.748153937479316
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many artwork collections contain textual attributes that provide rich and contextualised descriptions of artworks. Visual grounding offers the potential for localising subjects within these descriptions on images, however, existing approaches are trained on natural images and generalise poorly to art. In this paper, we present CIGAr (Context-Infused GroundingDINO for Art), a visual grounding approach which utilises the artwork descriptions during training as context, thereby enabling visual grounding on art. In addition, we present a new dataset, Ukiyo-eVG, with manually annotated phrase-grounding annotations, and we set a new state-of-the-art for object detection on two artwork datasets.
Abstract（参考訳）: 多くのアートコレクションには、リッチで文脈化されたアートワークの記述を提供するテキスト属性が含まれている。視覚的グラウンドティングは、これらの画像上の記述の中で被験者をローカライズする可能性を提供するが、既存のアプローチは自然画像に基づいて訓練され、芸術に不適な一般化がなされている。本稿では,CIGAr(Context-Infused GroundingDINO for Art)を提案する。さらに、手動で注釈付きフレーズグラウンドアノテーションを付加した新しいデータセットUkiyo-eVGを提示し、2つのアートデータセット上でオブジェクト検出のための新しい最先端技術を設定した。

関連論文リスト

Compose Your Aesthetics: Empowering Text-to-Image Models with the Principles of Art [61.28133495240179]
本稿では,ユーザが特定した美学をT2I生成出力と整合させることを目的とした,美学アライメントの新しい課題を提案する。アートワークが美学にアプローチするための貴重な視点を提供する方法にインスパイアされた私たちは、構成的枠組みのアーティストが採用する視覚的美学を定式化した。我々は,T2I DMが,ユーザが特定したPoA条件により10の合成制御を効果的に提供することを実証した。
論文参考訳（メタデータ） (2025-03-15T06:58:09Z)
Art-Free Generative Models: Art Creation Without Graphic Art Knowledge [50.60063523054282]
美術関連コンテンツへのアクセスなしに訓練されたテキスト・画像生成モデルを提案する。そこで我々は,選択した芸術スタイルのごく一部の例を用いて,シンプルな,かつ効果的なアートアダプタの学習方法を提案する。
論文参考訳（メタデータ） (2024-11-29T18:59:01Z)
KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph [24.586916324061168]
本稿では,アートワーク開発のための知識付加型視覚言語モデルを提案する。 KALEはメタデータを2つの方法で組み込む: 第一に直接テキスト入力、第二にマルチモーダルなヘテロジニアス知識グラフである。実験結果から,KALEは複数のアートデータセットにまたがる既存の最先端の作業に対して高い性能を発揮することが示された。
論文参考訳（メタデータ） (2024-09-17T06:39:18Z)
Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文参考訳（メタデータ） (2023-12-19T03:32:10Z)
Text-Guided Synthesis of Eulerian Cinemagraphs [81.20353774053768]
テキスト記述からシネマグラフを作成する完全自動化された方法であるText2Cinemagraphを紹介する。連続した動きと反復的なテクスチャを示す流れの川や漂流する雲などの流体要素のシネマグラフに焦点を当てる。
論文参考訳（メタデータ） (2023-07-06T17:59:31Z)
Not Only Generative Art: Stable Diffusion for Content-Style Disentanglement in Art Analysis [23.388338598125195]
五屋(ごや)は、近年の創作モデルで捉えた芸術的知識を蒸留して、内容や様式を乱す方法である。実験により、合成された画像は、アートワークの実際の分布のプロキシとして十分に役立っていることが示された。
論文参考訳（メタデータ） (2023-04-20T13:00:46Z)
Towards Artistic Image Aesthetics Assessment: a Large-scale Dataset and a New Method [64.40494830113286]
まず、Boldbrush Artistic Image dataset (BAID)という大規模なAIAAデータセットを紹介します。そこで我々は,芸術的イメージを評価するために,スタイル特異的で汎用的な美的情報を効果的に抽出し,活用する新たな手法であるSAANを提案する。実験により,提案手法は提案したBAIDデータセット上で既存のIAA手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-03-27T12:59:15Z)
Inversion-Based Style Transfer with Diffusion Models [78.93863016223858]
以前の任意の例として誘導された芸術的画像生成法は、しばしば形状変化の制御や要素の伝達に失敗する。画像のキー情報を効率よく正確に学習できるインバージョンベースのスタイル転送手法(InST)を提案する。
論文参考訳（メタデータ） (2022-11-23T18:44:25Z)
Language Does More Than Describe: On The Lack Of Figurative Speech in Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文参考訳（メタデータ） (2022-10-19T14:20:05Z)
Context-Aware Image Inpainting with Learned Semantic Priors [100.99543516733341]
欠落した内容を推定するために意味的に意味のある前文タスクを導入する。本研究では,グローバルなセマンティクスと局所的な特徴を適応的に統合した文脈認識型画像インパインティングモデルを提案する。
論文参考訳（メタデータ） (2021-06-14T08:09:43Z)
Iconographic Image Captioning for Artworks [2.3859169601259342]
本研究は,Iconclass分類システムの概念を付加したアート画像の大規模データセットを利用する。アノテーションはクリーンなテキスト記述に処理され、画像キャプションタスク上でディープニューラルネットワークモデルのトレーニングに適したデータセットを生成する。画像データセットを用いて、トランスフォーマーに基づく視覚言語事前学習モデルを微調整する。生成したキャプションの品質と新たなデータに一般化するモデルの能力について,新たな絵画コレクションにモデルを適用し,一般的なキャプションと芸術ジャンルの関係を解析することにより検討する。
論文参考訳（メタデータ） (2021-02-07T23:11:33Z)
ArtEmis: Affective Language for Visual Art [46.643106054408285]
我々は視覚アートワークによって引き起こされる情緒体験に焦点を当てる。ある画像に対して感じている支配的な感情を示すために、注釈を付けます。これにより、目的コンテンツとイメージの感情的影響の両方に対して、リッチな信号セットが導かれる。
論文参考訳（メタデータ） (2021-01-19T01:03:40Z)
Understanding Compositional Structures in Art Historical Images using Pose and Gaze Priors [20.98603643788824]
画像合成は、アーティストとそのアートワークを研究するために、画像内の相互作用を分析するのに有用である。本研究では,既存の機械学習技術を用いて,このプロセスの自動化を試みる。本手法は, (a) 絵画のアクション領域とアクションラインの検出, (b) 前景と背景のポーズに基づくセグメンテーションの2つの中心的なテーマに焦点を当てる。
論文参考訳（メタデータ） (2020-09-08T15:01:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。