論文の概要: Beyond Literal Translation: Evaluating Cultural Effectiveness in Social Media UGC
- arxiv url: http://arxiv.org/abs/2605.25626v1
- Date: Mon, 25 May 2026 09:29:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.553866
- Title: Beyond Literal Translation: Evaluating Cultural Effectiveness in Social Media UGC
- Title(参考訳): リテラル翻訳を超えて:ソーシャルメディアUGCにおける文化的有効性を評価する
- Authors: Linjuan Wu, Ruiqi Zhang, Xinze Lyu, Ye Guo, Daoxin Zhang, Zhe Xu, Yao Hu, Yixin Cao, Yongliang Shen, Weiming Lu,
- Abstract要約: 我々はソーシャルメディア翻訳のベンチマークであるCULTURE-MTを紹介する。
CULTURE-MTは、14のドメインにまたがる1,002のノートで構成され、カルチャーロードされたシンボルと言語スタイルの特徴に基づいて4つのタイプに分類される。
本稿では,表現精度と文化的適応性に着目し,新しい評価基準としての文化的有効性を提案する。
- 参考スコア(独自算出の注目度): 39.66998905774523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media platforms enable large-scale cross-lingual communication, but translating user-generated content (UGC) remains challenging due to its informal style, cultural references, and interaction-based expressions. While recent LLMs have improved translation quality, existing benchmarks and metrics often fail to capture whether translations convey intended meaning and cultural resonance in real-world settings. In this work, we introduce CULTURE-MT, a benchmark for social media translation that focuses on both CULtural Transmission and UGC-specific emotion REsonance. CULTURE-MT consists of 1,002 UGC notes across 14 domains, categorized into four types based on culture-loaded symbols and linguistic style features. We also construct UGC-oriented training data to fine-tune Qwen3-8B and Qwen3-32B as baselines. We propose cultural effectiveness as a new evaluation criterion, focusing on expression accuracy and cultural adaptability. Testing 15 models, including the baselines, we find that traditional metrics fail to capture cultural effectiveness. We also observe that cultural effectiveness on base LLMs correlates with model size. Our work provides a comprehensive evaluation system for UGC translation models and will offer an open evaluation platform to advance research in this area. We release the CULTURE-MT benchmark and provide an online leaderboard where submitted translation results can be evaluated by our trained JUDGER.
- Abstract(参考訳): ソーシャルメディアプラットフォームは、大規模な言語間コミュニケーションを可能にするが、ユーザ生成コンテンツ(UGC)の翻訳は、非公式なスタイル、文化的な参照、対話に基づく表現のために困難である。
近年のLLMでは翻訳の質が向上しているが、既存のベンチマークやメトリクスでは、翻訳が現実の環境で意味と文化の共鳴を伝達するかどうかを把握できないことが多い。
本稿では,CULtural TransmissionとUGC特有の感情共鳴の両方に焦点を当てたソーシャルメディア翻訳のベンチマークであるCULTURE-MTを紹介する。
CULTURE-MTは、14ドメインにわたる1,002 UGCノートで構成され、カルチャーロードされたシンボルと言語スタイルの特徴に基づく4つのタイプに分類される。
また、ベースラインとしてQwen3-8BとQwen3-32Bを微調整するUGC指向トレーニングデータを構築した。
本稿では,表現精度と文化的適応性に着目し,新しい評価基準としての文化的有効性を提案する。
ベースラインを含む15のモデルをテストすると、従来のメトリクスは文化的な効果を捉えられません。
また,LLMの文化的効果がモデルサイズと相関していることも確認した。
本研究は,UGC翻訳モデルの総合的な評価システムを提供し,この分野の研究を進めるためのオープンな評価プラットフォームを提供する。
我々はCULTURE-MTベンチマークを公開し、提案した翻訳結果をトレーニングされたJUDGERで評価できるオンラインリーダーボードを提供する。
関連論文リスト
- CrossCult-KIBench: A Benchmark for Cross-Cultural Knowledge Insertion in MLLMs [13.267566050457974]
異文化間の知識挿入は、他の文化における本来の振る舞いを保ちながら、特定の文化的文脈にモデルを適応させることに焦点を当てる。
ベンチマークには、英語、中国語、アラビア語文化グループにまたがる49の文化的関連視覚シナリオをカバーする、9800のイメージグラウンドケースが含まれている。
MCKI(Memory-Conditioned Knowledge Insertion)は、冷凍MLLM表現を用いて、外部メモリから関連する文化的知識を検索する。
論文 参考訳(メタデータ) (2026-05-07T12:26:11Z) - From Words to Worlds: Benchmarking Cross-Cultural Cultural Understanding in Machine Translation [16.809989616664605]
CulT-Evalは、モデルが異なるタイプの文化的基盤表現をどのように扱うかを評価するために設計されたベンチマークである。
CulT-Evalは、複数の文化的な接地された表現にまたがる、7,959以上の慎重にキュレートされたインスタンスから構成されている。
文化的な意味の逸脱を対象とする相補的評価尺度を提案する。
論文 参考訳(メタデータ) (2026-03-18T02:59:44Z) - Culturally-Aware Conversations: A Framework & Benchmark for LLMs [8.314136556868563]
LLMの文化的適応を測定する既存のベンチマークは、さまざまな文化的背景を持つユーザと対話する際に、これらのモデルが直面する実際の課題と不一致である。
社会文化的理論を基礎として,我々の枠組みは,状況的,関係的,文化的文脈によって言語様式がどう形成されるかを定式化した。
我々は,この枠組みに基づいて,文化的に多彩なラッカーによって注釈付けされたベンチマークデータセットを構築し,NLPにおける異文化間評価のための新しいデシラタセットを提案する。
論文 参考訳(メタデータ) (2025-10-13T16:06:14Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - CultureSynth: A Hierarchical Taxonomy-Guided and Retrieval-Augmented Framework for Cultural Question-Answer Synthesis [41.483432890962824]
本稿では,大規模言語モデルの文化的能力を評価する新しいフレームワークであるCulture Synthを紹介する。
Culture Synth-7ベンチマークには、7つの言語にまたがる19,360項目と4,149項目の検証済みエントリが含まれている。
論文 参考訳(メタデータ) (2025-09-13T16:33:56Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Benchmarking Machine Translation with Cultural Awareness [50.183458829028226]
文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。
多くの文化特化項目(CSI)は言語間の翻訳を欠いていることが多い。
この難しさは機械翻訳システムの文化的意識の分析を妨げる。
論文 参考訳(メタデータ) (2023-05-23T17:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。