論文の概要: MMCIG: Multimodal Cover Image Generation for Text-only Documents and Its Dataset Construction via Pseudo-labeling
- arxiv url: http://arxiv.org/abs/2508.17199v1
- Date: Sun, 24 Aug 2025 03:24:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.398293
- Title: MMCIG: Multimodal Cover Image Generation for Text-only Documents and Its Dataset Construction via Pseudo-labeling
- Title(参考訳): MMCIG:テキストのみの文書用マルチモーダルカバー画像生成と擬似ラベルによるデータセット構築
- Authors: Hyeyeon Kim, Sungwoo Han, Jingun Kwon, Hidetaka Kamigaito, Manabu Okumura,
- Abstract要約: 本稿では,テキストのみの文書から簡潔な要約と視覚的に対応する画像を生成する新しいカバー画像生成タスクを提案する。
このタスクには既存のデータセットが利用できないため、低コストで高品質なデータセットを構築するためのマルチモーダルな擬似ラベル手法を提案する。
- 参考スコア(独自算出の注目度): 41.089727903080885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we introduce a novel cover image generation task that produces both a concise summary and a visually corresponding image from a given text-only document. Because no existing datasets are available for this task, we propose a multimodal pseudo-labeling method to construct high-quality datasets at low cost. We first collect documents that contain multiple images with their captions, and their summaries by excluding factually inconsistent instances. Our approach selects one image from the multiple images accompanying the documents. Using the gold summary, we independently rank both the images and their captions. Then, we annotate a pseudo-label for an image when both the image and its corresponding caption are ranked first in their respective rankings. Finally, we remove documents that contain direct image references within texts. Experimental results demonstrate that the proposed multimodal pseudo-labeling method constructs more precise datasets and generates higher quality images than text- and image-only pseudo-labeling methods, which consider captions and images separately. We release our code at: https://github.com/HyeyeeonKim/MMCIG
- Abstract(参考訳): 本研究では,テキストのみの文書から簡潔な要約と視覚的に対応する画像を生成する新しいカバー画像生成タスクを提案する。
このタスクには既存のデータセットが利用できないため、低コストで高品質なデータセットを構築するためのマルチモーダルな擬似ラベル手法を提案する。
まず,複数の画像とキャプション,要約を含む文書を,実例と矛盾しない例を除外して収集する。
本手法では,文書に付随する複数の画像から1つの画像を選択する。
金の要約を用いて、画像とキャプションの両方を独立にランク付けする。
そして、画像と対応するキャプションの両方がそれぞれのランキングで最初にランク付けされたときに、画像の擬似ラベルに注釈を付ける。
最後に、テキスト内の直接画像参照を含む文書を削除する。
実験により,提案手法は,字幕と画像を別々に考慮したテキストや画像のみの擬似ラベル法よりも高精度なデータセットを構築し,高品質な画像を生成することを示す。
https://github.com/HyeyeeonKim/MMCIG
関連論文リスト
- Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image
Captioning [0.65268245109828]
コヒーレントエンティティを意識したマルチイメージキャプションは、ニュース文書に隣接する画像のコヒーレントキャプションを生成することを目的としている。
本稿では,コヒーレンス関係を利用して,コヒーレントな実体認識型マルチイメージキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-02-04T07:50:31Z) - LANIT: Language-Driven Image-to-Image Translation for Unlabeled Data [39.421312439022316]
我々はLANITと呼ばれるLANguage-driven Image-to-image Translationモデルを提案する。
画像と属性の類似性はサンプル単位のドメインラベルを示す。
いくつかの標準ベンチマークの実験では、LANITは既存のモデルに匹敵する、あるいは優れた性能を達成している。
論文 参考訳(メタデータ) (2022-08-31T14:30:00Z) - Revising Image-Text Retrieval via Multi-Modal Entailment [25.988058843564335]
多対多のマッチング現象は、広く使われている画像テキスト検索データセットで非常によく見られる。
文が画像と関連キャプションによって関連付けられているかどうかを判定するマルチモーダル・エンターメント分類器を提案する。
論文 参考訳(メタデータ) (2022-08-22T07:58:54Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Image-to-image Translation via Hierarchical Style Disentanglement [115.81148219591387]
この問題に対処するために,HiSD(Hierarchical Style Disentanglement)を提案する。
具体的には,ラベルを階層的な木構造に整理し,独立タグ,排他属性,不規則なスタイルを上下に割り当てる。
CelebA-HQデータセットの定性的および定量的結果の両方が提案されたHiSDの能力を検証する。
論文 参考訳(メタデータ) (2021-03-02T03:43:18Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Semi-supervised Learning for Few-shot Image-to-Image Translation [89.48165936436183]
本稿では,SEMITと呼ばれる画像翻訳のための半教師付き手法を提案する。
提案手法は,ソースラベルの10%以下を用いて,4つの異なるデータセットに対して優れた結果を得る。
論文 参考訳(メタデータ) (2020-03-30T22:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。