Fugu-MT 論文翻訳(概要): Caption Generation for Dongba Paintings via Prompt Learning and Semantic Fusion

論文の概要: Caption Generation for Dongba Paintings via Prompt Learning and Semantic Fusion

arxiv url: http://arxiv.org/abs/2603.22946v1
Date: Tue, 24 Mar 2026 08:42:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-25 19:53:37.384995
Title: Caption Generation for Dongba Paintings via Prompt Learning and Semantic Fusion
Title（参考訳）: プロンプト学習と意味融合によるドンバ絵画のキャプション生成
Authors: Shuangwu Qian, Xiaochan Yuan, Pengfei Liu,
Abstract要約: 本稿では,コンテントプロンプトモジュールと視覚的セマンティック・ジェネレーション・フュージョン・ロスを統合したエンコーダ・デコーダ・フレームワークを提案する。本研究は,7つの主題カテゴリにまたがる文化的接地アノテーションを用いた9408枚の拡張画像からなるドンバ絵画キャプションデータセットを構築した。
参考スコア（独自算出の注目度）: 17.71966621769482
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Dongba paintings, the treasured pictorial legacy of the Naxi people in southwestern China, feature richly layered visual elements, vivid color palettes, and pronounced ethnic and regional cultural symbolism, yet their automatic textual description remains largely unexplored owing to severe domain shift when mainstream captioning models are applied directly. This paper proposes \textbf{PVGF-DPC} (\textit{Prompt and Visual Semantic-Generation Fusion-based Dongba Painting Captioning}), an encoder-decoder framework that integrates a content prompt module with a novel visual semantic-generation fusion loss to bridge the gap between generic natural-image captioning and the culturally specific imagery found in Dongba art. A MobileNetV2 encoder extracts discriminative visual features, which are injected into the layer normalization of a 10-layer Transformer decoder initialized with pretrained BERT weights; meanwhile, the content prompt module maps the image feature vector to culture-aware labels -- such as \emph{deity}, \emph{ritual pattern}, or \emph{hell ghost} -- and constructs a post-prompt that steers the decoder toward thematically accurate descriptions. The visual semantic-generation fusion loss jointly optimizes the cross-entropy objectives of both the prompt predictor and the caption generator, encouraging the model to extract key cultural and visual cues and to produce captions that are semantically aligned with the input image. We construct a dedicated Dongba painting captioning dataset comprising 9{}408 augmented images with culturally grounded annotations spanning seven thematic categories.
Abstract（参考訳）: 中国南西部の南シナ民族の遺産であるドンバ絵画は、濃厚な視覚的要素、鮮やかな色彩のパレット、民族的・地域的文化的象徴主義を特徴としているが、主流のキャプションモデルが直接適用された際には、ドメインシフトが激しいため、その自動的な記述はほとんど探索されていない。本稿では,コンテンツプロンプトモジュールと新たな視覚的セマンティック・ジェネレーション・フュージョン・ロスを統合するエンコーダ・デコーダ・フレームワークである<textbf{PVGF-DPC} (\textit{Prompt and Visual Semantic-Generation Fusion-based Dongba Painting Captioning})を提案する。 MobileNetV2エンコーダは、事前訓練されたBERT重みで初期化された10層トランスフォーマーデコーダの層正規化に注入される識別視覚的特徴を抽出する一方、コンテンツプロンプトモジュールは、画像特徴ベクトルを文化認識ラベル(例えば \emph{deity}、 \emph{ritual pattern}、 \emph{hell ghost} など)にマッピングし、デコーダを数学的に正確な記述に操るポストプロンプトを構築する。視覚的セマンティックジェネレーション融合損失は、プロンプト予測器とキャプション生成器の両方のクロスエントロピー目的を共同で最適化し、重要な文化的および視覚的手がかりを抽出し、入力画像にセマンティックに整合したキャプションを生成する。 9{}408の付加画像からなるドンバ絵画キャプションデータセットを,7つの主題カテゴリにまたがる文化的根拠付きアノテーションを用いて構築した。

関連論文リスト

Qwen-Image Technical Report [86.46471547116158]
Qwen-Imageは複雑なテキストのレンダリングと正確な画像編集において大きな進歩を遂げた画像生成基盤モデルである。我々は、大規模なデータ収集、フィルタリング、アノテーション、合成、バランスを含む包括的なデータパイプラインを設計する。 Qwen-Imageは、英語のようなアルファベットの言語で非常によく機能し、中国語のようなより挑戦的なログラフ言語でも顕著な進歩を遂げている。
論文参考訳（メタデータ） (2025-08-04T11:49:20Z)
Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning [52.92837273570818]
漢字は独特な構造と構成規則を示しており、表現にきめ細かい意味情報を使用することが可能である。コントラストパラダイムに基づく階層型多言語画像テキストアライニング(Hi-GITA)フレームワークを提案する。提案したHi-GITAは既存のゼロショットCCR法より優れている。
論文参考訳（メタデータ） (2025-05-30T17:39:14Z)
SceneBooth: Diffusion-based Framework for Subject-preserved Text-to-Image Generation [46.43776651071455]
既存の手法では、しばしば主題表現を学習し、画像生成を誘導するプロンプト埋め込みに組み込む。本稿では,SceneBooth という新しいフレームワークを主題保存型テキスト・画像生成に適用する。我々のSceneBoothは、与えられた主題の画像を修正し、テキストプロンプトによってガイドされた背景画像を生成する。
論文参考訳（メタデータ） (2025-01-07T03:18:15Z)
UnMA-CapSumT: Unified and Multi-Head Attention-driven Caption Summarization Transformer [6.351779356923131]
本稿では,Unified Attention and Multi-Head Attention-driven Caption Summarization Transformer (UnMA-CapSumT) ベースのキャプションフレームワークを提案する。修正適応注意に基づく実写画像キャプションモデル(MAA-FIC)とSF-Bi-ALSTM駆動のスタイル化画像キャプションモデル(SF-Bi-ALSTM)の両方を用いている。
論文参考訳（メタデータ） (2024-12-16T14:57:40Z)
Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文参考訳（メタデータ） (2024-05-21T18:02:07Z)
GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures in Text-to-Image Generation [18.396131717250793]
GlyphDrawは、画像生成モデルに特定の言語に対して、テキストにコヒーレントに埋め込まれた画像を生成する能力を持たせることを目的とした、一般的な学習フレームワークである。提案手法は,プロンプトのように正確な言語文字を生成するだけでなく,生成したテキストを背景にシームレスにブレンドする。
論文参考訳（メタデータ） (2023-03-31T08:06:33Z)
Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文参考訳（メタデータ） (2023-03-16T13:50:20Z)
AI Illustrator: Translating Raw Descriptions into Images by Prompt-based Cross-Modal Generation [61.77946020543875]
本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
論文参考訳（メタデータ） (2022-09-07T13:53:54Z)
Matching Visual Features to Hierarchical Semantic Topics for Image Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文参考訳（メタデータ） (2021-05-10T06:55:39Z)
Exploring Explicit and Implicit Visual Relationships for Image Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文参考訳（メタデータ） (2021-05-06T01:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。