論文の概要: CIC: A framework for Culturally-aware Image Captioning
- arxiv url: http://arxiv.org/abs/2402.05374v1
- Date: Thu, 8 Feb 2024 03:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:46:47.946349
- Title: CIC: A framework for Culturally-aware Image Captioning
- Title(参考訳): CIC: 文化的イメージキャプションのためのフレームワーク
- Authors: Youngsik Yun and Jihie Kim
- Abstract要約: そこで我々は,文化を表す画像の視覚的要素から抽出された文化的要素をキャプションとして記述する新しい枠組み,textbfCulturally-aware Image Captioning (CIC)を提案する。
視覚的モダリティとLarge Language Models(LLM)を適切なプロンプトで組み合わせた手法に着想を得て,この枠組みは画像から文化カテゴリーに基づく質問を生成する。
4つの異なる文化集団から45人の被験者を対象に行った人的評価から,提案する枠組みがより文化的に記述的なキャプションを生成することが示唆された。
- 参考スコア(独自算出の注目度): 3.03134738398979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image Captioning generates descriptive sentences from images using
Vision-Language Pre-trained models (VLPs) such as BLIP, which has improved
greatly. However, current methods lack the generation of detailed descriptive
captions for the cultural elements depicted in the images, such as the
traditional clothing worn by people from Asian cultural groups. In this paper,
we propose a new framework, \textbf{Culturally-aware Image Captioning (CIC)},
that generates captions and describes cultural elements extracted from cultural
visual elements in images representing cultures. Inspired by methods combining
visual modality and Large Language Models (LLMs) through appropriate prompts,
our framework (1) generates questions based on cultural categories from images,
(2) extracts cultural visual elements from Visual Question Answering (VQA)
using generated questions, and (3) generates culturally-aware captions using
LLMs with the prompts. Our human evaluation conducted on 45 participants from 4
different cultural groups with a high understanding of the corresponding
culture shows that our proposed framework generates more culturally descriptive
captions when compared to the image captioning baseline based on VLPs. Our code
and dataset will be made publicly available upon acceptance.
- Abstract(参考訳): Image Captioningは、BLIPのようなVLP(Vision-Language Pre-trained Model)を用いて画像から記述文を生成する。
しかし、現在の手法では、アジアの文化集団が着用する伝統的な衣服など、画像に描かれた文化的要素の詳細な説明的なキャプションが生成されていない。
本稿では,文化を表すイメージにおいて,文化的な視覚的要素から抽出された文化的要素をキャプションとして表現し,表現する新しい枠組みである「CIC」を提案する。
視覚的モダリティとLarge Language Models(LLM)を適切なプロンプトで組み合わせた手法に着想を得て,(1)画像から文化的カテゴリに基づく質問,(2)視覚的質問回答(VQA)から文化的な視覚要素を抽出し,(3)LLMを用いて文化的に認識されたキャプションを生成する。
本研究は,4つの異なる文化グループから45名を対象に,vlpに基づく画像キャプションベースラインと比較して,提案手法がより文化的に記述的なキャプションを生成することを示す。
私たちのコードとデータセットは、受け入れ次第公開されます。
関連論文リスト
- Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of
Text-To-Image Models [36.04866429768613]
本稿では,3つの階層(文化次元,文化領域,文化概念)にまたがる文化を特徴付けることによって,テキスト・トゥ・イメージ・モデルに埋め込まれた文化的知覚を探求する。
本稿では,CLIP空間を用いた内在的評価,ビジュアルクエスト・アンサー(VQA)モデルによる外在的評価,人的評価など,総合的な評価手法を提案する。
我々の実験は、TTIモデルにおける文化的エンコーディングの性質について、Do、What、What、Howおよび研究に関する洞察を提供し、異文化的な応用への道を開いた。
論文 参考訳(メタデータ) (2023-10-03T10:13:36Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Towards Equitable Representation in Text-to-Image Synthesis Models with
the Cross-Cultural Understanding Benchmark (CCUB) Dataset [8.006068032606182]
本稿では,小さいが文化的にキュレートされたデータセットを用いて,テキストと画像の合成を文化的に認識するプライミング手法を提案する。
実験の結果, テキストと画像の両方を用いたプライミングは, 文化的関連性の向上と, 生成画像の攻撃性低下に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-01-28T03:10:33Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Exploiting Cultural Biases via Homoglyphs in Text-to-Image Synthesis [33.080261792998826]
テキスト・ツー・イメージ合成のモデルは近年,アカデミックや一般大衆から多くの関心を集めている。
テキスト記述に1文字の非ラテン語文字を挿入するだけで、共通のモデルが生成した画像の文化的ステレオタイプやバイアスを反映することを示す。
本稿では,テキストエンコーダを微調整する新しいホモグリフアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-09-19T09:48:17Z) - PreSTU: Pre-Training for Scene-Text Understanding [49.288302725486226]
シーンテキスト理解(STU)に特化した新しい事前学習レシピであるPreSTUを提案する。
PreSTUは、OCR対応の事前学習目標を導入し、モデルが画像からテキストを認識し、残りの画像コンテンツに接続することを奨励する。
8つの視覚的質問応答と4つの画像キャプションベンチマークに対して,この事前学習アプローチの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2022-09-12T18:29:55Z) - Culture-to-Culture Image Translation and User Evaluation [0.0]
本稿では,文化的な特徴の筆跡を変える過程として定義するイメージ「文化化」の概念を紹介する。
我々は、最先端のジェネレーティブ・アドバイサル・ネットワークに基づいて、オブジェクトのイメージをソースからターゲットの文化的領域に翻訳するためのパイプラインを定義した。
我々は,異なる文化ドメインに属する画像がイタリアの参加者に与える影響について,4つの仮説を検証するために,オンラインアンケートを通じてデータを収集した。
論文 参考訳(メタデータ) (2022-01-05T12:10:42Z) - A Picture May Be Worth a Hundred Words for Visual Question Answering [26.83504716672634]
画像理解においては、簡潔だが詳細な画像表現を用いることが不可欠である。
より高速なR-CNNのような視覚モデルによって抽出された深い視覚的特徴は、複数のタスクで広く使われている。
本稿では、深い視覚的特徴の代わりに記述-探索ペアを入力とし、言語のみのトランスフォーマーモデルに入力する。
論文 参考訳(メタデータ) (2021-06-25T06:13:14Z) - Structural and Functional Decomposition for Personality Image Captioning
in a Communication Game [53.74847926974122]
パーソナリティ画像キャプション(PIC)は、性格特性が与えられた自然言語キャプションを持つ画像を記述することを目的としている。
本稿では,話者とリスナーのコミュニケーションゲームに基づくPICの新しい定式化を提案する。
論文 参考訳(メタデータ) (2020-11-17T10:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。