Fugu-MT 論文翻訳(概要): Beyond Translation: Cross-Cultural Meme Transcreation with Vision-Language Models

論文の概要: Beyond Translation: Cross-Cultural Meme Transcreation with Vision-Language Models

arxiv url: http://arxiv.org/abs/2602.02510v1
Date: Fri, 23 Jan 2026 01:04:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 02:03:42.415197
Title: Beyond Translation: Cross-Cultural Meme Transcreation with Vision-Language Models
Title（参考訳）: Beyond Translation: Vision-Languageモデルによる異文化間ミームのトランスクリエーション
Authors: Yuming Zhao, Peiyi Zhang, Oana Ignat,
Abstract要約: クロスカルチャー・ミーム・トランスクリエーションは、文化固有の基準を適用しつつ、コミュニケーションの意図とユーモアを維持することを目的とした課題である。本稿では,視覚言語モデルに基づくハイブリッドトランスクリエーションフレームワークを提案する。
参考スコア（独自算出の注目度）: 9.43501626015691
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Memes are a pervasive form of online communication, yet their cultural specificity poses significant challenges for cross-cultural adaptation. We study cross-cultural meme transcreation, a multimodal generation task that aims to preserve communicative intent and humor while adapting culture-specific references. We propose a hybrid transcreation framework based on vision-language models and introduce a large-scale bidirectional dataset of Chinese and US memes. Using both human judgments and automated evaluation, we analyze 6,315 meme pairs and assess transcreation quality across cultural directions. Our results show that current vision-language models can perform cross-cultural meme transcreation to a limited extent, but exhibit clear directional asymmetries: US-Chinese transcreation consistently achieves higher quality than Chinese-US. We further identify which aspects of humor and visual-textual design transfer across cultures and which remain challenging, and propose an evaluation framework for assessing cross-cultural multimodal generation. Our code and dataset are publicly available at https://github.com/AIM-SCU/MemeXGen.
Abstract（参考訳）: ミームはオンラインコミュニケーションの広汎な形態であるが、その文化的特異性は、異文化間の適応に重大な課題をもたらす。本研究は,コミュニケーションの意図とユーモアを維持しつつ,文化固有の基準を適応させることを目的とした多モーダル生成タスクであるクロスカルカル・ミーム・トランスクリエーションについて研究する。本稿では,視覚言語モデルに基づくハイブリッドトランスクリエーションフレームワークを提案する。人的判断と自動評価の両方を用いて、6,315対のミームを解析し、文化的な方向のトランスクリエーション品質を評価する。以上の結果から,現行の視覚言語モデルでは,異文化間のミームのトランスクリエーションは限られた範囲で行うことができるが,明確な方向性の漸進性を示すことが示唆された。さらに,文化全体にわたるユーモアと視覚的・テクスチュアルなデザインのどの側面が困難なままなのかを識別し,異文化間のマルチモーダル世代を評価するための評価枠組みを提案する。私たちのコードとデータセットはhttps://github.com/AIM-SCU/MemeXGen.comで公開されています。

関連論文リスト

Do Large Language Models Truly Understand Cross-cultural Differences? [53.481048019144644]
我々は,大規模言語モデルの異文化間理解と推論を評価するシナリオベースのベンチマークを開発した。文化理論を基礎として、異文化の能力を9次元に分類する。データセットは連続的な拡張をサポートし、実験は他の言語への転送可能性を確認する。
論文参考訳（メタデータ） (2025-12-08T01:21:58Z)
Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation [43.352493955825736]
現在のT2Iモデルは、多言語的なプロンプトの下で、文化的に中立な結果や英語に偏った結果をもたらすことが多い。本稿では,培養感受性シグナルを少数の固定層内の小さなニューロン群に局在させる探索法を提案する。
論文参考訳（メタデータ） (2025-11-21T14:40:50Z)
MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。 i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文参考訳（メタデータ） (2025-10-07T14:12:12Z)
Toward Socially Aware Vision-Language Models: Evaluating Cultural Competence Through Multimodal Story Generation [2.0467354053171243]
本稿では,マルチモーダルストーリー生成による視覚言語モデル(VLM)の文化的能力の総合評価を行う。分析の結果,文化的に特有な語彙が多岐にわたる文化的適応能力,家族用語,地理的マーカーが明らかとなった。文化的な能力はアーキテクチャによって劇的に変化し、いくつかのモデルは逆の文化的アライメントを示し、自動化されたメトリクスは人間の評価と矛盾するアーキテクチャ上のバイアスを示しています。
論文参考訳（メタデータ） (2025-08-22T19:39:02Z)
CaMMT: Benchmarking Culturally Aware Multimodal Machine Translation [47.54347964192231]
本稿では,5800枚以上の画像のベンチマークであるCaMMTと,英語と地域語でのパラレルキャプションを紹介する。自動的および人的評価により、視覚的コンテキストは一般的に翻訳品質を改善する。
論文参考訳（メタデータ） (2025-05-30T10:42:44Z)
TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs [13.069833806549914]
中国伝統文化理解ベンチマーク(TCC-Bench)を提案する。 TCC-Benchは、文化的に豊かで視覚的に多様なデータで構成されており、博物館の工芸品、日常の生活シーン、漫画、その他の文化的に重要な文脈の画像が組み込まれている。テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。
論文参考訳（メタデータ） (2025-05-16T14:10:41Z)
CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文参考訳（メタデータ） (2024-05-24T01:49:02Z)
CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文参考訳（メタデータ） (2024-05-22T20:19:10Z)
On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-07-06T13:17:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。