論文の概要: Cultural Encoding in Large Language Models: The Existence Gap in AI-Mediated Brand Discovery
- arxiv url: http://arxiv.org/abs/2601.00869v1
- Date: Tue, 30 Dec 2025 13:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.810219
- Title: Cultural Encoding in Large Language Models: The Existence Gap in AI-Mediated Brand Discovery
- Title(参考訳): 大規模言語モデルにおける文化的エンコーディング:AIを利用したブランド発見における存在ギャップ
- Authors: Huang Junyao, Situ Ruimin, Ye Renqin,
- Abstract要約: 我々は6つの大言語モデル(LLM)と30のブランドにわたる1,909の純英語クエリを分析した。
中国のLLMは、国際LLMよりも30.6%高いブランド言及率を示している。
この格差は、同じ英語クエリで持続し、トレーニングデータジオグラフィック(言語ではなく)が影響を駆動していることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As artificial intelligence systems increasingly mediate consumer information discovery, brands face algorithmic invisibility. This study investigates Cultural Encoding in Large Language Models (LLMs) -- systematic differences in brand recommendations arising from training data composition. Analyzing 1,909 pure-English queries across 6 LLMs (GPT-4o, Claude, Gemini, Qwen3, DeepSeek, Doubao) and 30 brands, we find Chinese LLMs exhibit 30.6 percentage points higher brand mention rates than International LLMs (88.9% vs. 58.3%, p<.001). This disparity persists in identical English queries, indicating training data geography -- not language -- drives the effect. We introduce the Existence Gap: brands absent from LLM training corpora lack "existence" in AI responses regardless of quality. Through a case study of Zhizibianjie (OmniEdge), a collaboration platform with 65.6% mention rate in Chinese LLMs but 0% in International models (p<.001), we demonstrate how Linguistic Boundary Barriers create invisible market entry obstacles. Theoretically, we contribute the Data Moat Framework, conceptualizing AI-visible content as a VRIN strategic resource. We operationalize Algorithmic Omnipresence -- comprehensive brand visibility across LLM knowledge bases -- as the strategic objective for Generative Engine Optimization (GEO). Managerially, we provide an 18-month roadmap for brands to build Data Moats through semantic coverage, technical depth, and cultural localization. Our findings reveal that in AI-mediated markets, the limits of a brand's "Data Boundaries" define the limits of its "Market Frontiers."
- Abstract(参考訳): 人工知能システムが消費者情報発見をますます仲介するにつれて、ブランドはアルゴリズムによる不可視性に直面している。
本研究では,大規模言語モデル(LLM)における文化的エンコーディングについて検討する。
6つのLLM(GPT-4o、Claude、Gemini、Qwen3、DeepSeek、Doubao)と30のブランドにわたる1,909の純英語クエリを分析し、中国のLLMは、国際LLMよりも30.6%高いブランド言及率(88.9%対58.3%、p<001)を示した。
この格差は、同じ英語クエリで持続し、トレーニングデータジオグラフィック(言語ではなく)が影響を駆動していることを示している。
LLMトレーニングコーパスに欠席しているブランドは、品質に関わらず、AI応答に「存在」がない。
中国のLLMでは65.6%が言及しているが、国際モデルでは0%(p<.001)であるZhizibianjie(OmniEdge)のケーススタディを通じて、言語境界バリアが市場への参入障壁を目に見えないものにする方法を実証した。
理論的には、AI可視コンテンツをVRIN戦略的リソースとして概念化するData Moat Frameworkにコントリビュートする。
我々は、ジェネレーティブエンジン最適化(GEO:Generative Engine Optimization)の戦略的目的として、アルゴリズムのOmnipresence -- LLM知識ベースにわたる包括的なブランドの可視性 -- を運用しています。
管理面では、セマンティックカバレッジ、技術的な深さ、文化的なローカライゼーションを通じて、ブランドがData Moatsを構築するための18ヶ月のロードマップを提供します。
我々の発見によると、AIを介する市場では、ブランドの「データ境界」の限界が「市場フロンティア」の限界を定義する。
関連論文リスト
- OmniEduBench: A Comprehensive Chinese Benchmark for Evaluating Large Language Models in Education [72.40048732210055]
中国の総合的な教育ベンチマークであるOmniEduBenchを紹介する。
データは、知識次元と栽培次元の2つの中核次元に分けられる。
データセットには、11の一般的な試験質問タイプを含む、さまざまな質問形式がある。
論文 参考訳(メタデータ) (2025-10-30T12:16:29Z) - From Human Annotation to Automation: LLM-in-the-Loop Active Learning for Arabic Sentiment Analysis [1.4874449172133888]
注釈を補助し、その性能を人間のラベルと比較する大規模言語モデル(LLM)は、アラビア語の文脈ではいまだに探索されていない。
ハイパフォーマンスを維持しつつアノテーションコストを削減するためにアラビア感情分析のための能動的学習フレームワークを提案する。
GPT-4o for Hunger Station、Claude 3 Sonnet for AJGT、DeepSeek Chat。
論文 参考訳(メタデータ) (2025-09-27T22:23:46Z) - MazeEval: A Benchmark for Testing Sequential Decision-Making in Language Models [0.0679877553227375]
本稿では,大規模言語モデルにおける純粋空間推論の分離と評価を目的としたベンチマークであるMazeEvalを紹介する。
我々は,英語とアイスランド語で同一の迷路にまたがる8つの最先端LLMを評価し,空間能力の言語間移動を評価する。
論文 参考訳(メタデータ) (2025-07-27T19:33:45Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - "See the World, Discover Knowledge": A Chinese Factuality Evaluation for Large Vision Language Models [38.921977141721605]
我々は,中国語で「 ChineseSimpleVQA」というファクトリティに基づく視覚質問応答ベンチマークを初めて導入した。
このベンチマークの主な特徴は、中国語、多様な知識タイプ、マルチホップ質問の構築、高品質なデータ、静的な一貫性、短い回答による評価、などである。
論文 参考訳(メタデータ) (2025-02-17T12:02:23Z) - Bridging the Data Provenance Gap Across Text, Speech and Video [67.72097952282262]
我々は、人気テキスト、音声、ビデオデータセットのモダリティにまたがって、最大かつ第1級の経時的監査を行う。
私たちの手動分析では、1990年から2024年の間に、608言語、798のソース、659の組織、67の国で4000近い公開データセットをカバーしています。
マルチモーダル機械学習アプリケーションは、トレーニングセットのために、YouTubeのようなWebcrawled、synthetic、ソーシャルメディアプラットフォームに圧倒的に移行した。
論文 参考訳(メタデータ) (2024-12-19T01:30:19Z) - Open Artificial Knowledge [3.187724439601991]
我々は5億以上のトークンからなる大規模リソースであるOpen Artificial Knowledge (OAK)データセットを紹介した。
OAKデータセットは、より有能で整合した言語モデルの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-07-19T15:01:24Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。