論文の概要: The performances of the Chinese and U.S. Large Language Models on the Topic of Chinese Culture
- arxiv url: http://arxiv.org/abs/2601.02830v1
- Date: Tue, 06 Jan 2026 09:03:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.863589
- Title: The performances of the Chinese and U.S. Large Language Models on the Topic of Chinese Culture
- Title(参考訳): 中国文化のトピックにおける日米大言語モデルの演奏
- Authors: Feiyan Liu, Chenxun Zhuo, Siyan Zhao, Bao Ge, Tianming Liu,
- Abstract要約: 本研究は, GPT-5.1, DeepSeek-V3.2, Qwen3-Max, Gemini2.5Pro などのモデルを評価するための直接探索パラダイムを採用する。
我々は、歴史、文学、詩、および関連する領域を含む伝統的な中国文化の理解を評価する。
- 参考スコア(独自算出の注目度): 11.59145703818284
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Cultural backgrounds shape individuals' perspectives and approaches to problem-solving. Since the emergence of GPT-1 in 2018, large language models (LLMs) have undergone rapid development. To date, the world's ten leading LLM developers are primarily based in China and the United States. To examine whether LLMs released by Chinese and U.S. developers exhibit cultural differences in Chinese-language settings, we evaluate their performance on questions about Chinese culture. This study adopts a direct-questioning paradigm to evaluate models such as GPT-5.1, DeepSeek-V3.2, Qwen3-Max, and Gemini2.5Pro. We assess their understanding of traditional Chinese culture, including history, literature, poetry, and related domains. Comparative analyses between LLMs developed in China and the U.S. indicate that Chinese models generally outperform their U.S. counterparts on these tasks. Among U.S.-developed models, Gemini 2.5Pro and GPT-5.1 achieve relatively higher accuracy. The observed performance differences may potentially arise from variations in training data distribution, localization strategies, and the degree of emphasis on Chinese cultural content during model development.
- Abstract(参考訳): 文化的背景は個人の視点と問題解決へのアプローチを形作る。
GPT-1が2018年に登場して以来、大規模言語モデル(LLM)が急速に発展してきた。
現在、世界トップ10のLLMデベロッパーは主に中国とアメリカを拠点としている。
中国語と米国開発者がリリースしたLCMが、中国語設定の文化的差異を示すかどうかを検討するため、中国文化に関する質問に対して、その性能を評価する。
本研究は, GPT-5.1, DeepSeek-V3.2, Qwen3-Max, Gemini2.5Pro などのモデルを評価するための直接探索パラダイムを採用する。
我々は、歴史、文学、詩、および関連する領域を含む伝統的な中国文化の理解を評価する。
中国とアメリカで開発されたLLMの比較分析は、中国モデルは一般的にこれらのタスクにおいて米国のモデルよりも優れていることを示している。
アメリカで開発されたモデルの中で、ジェミニ 2.5Pro と GPT-5.1 は比較的高い精度を実現している。
観察されたパフォーマンスの違いは、トレーニングデータ配布のバリエーション、ローカライゼーション戦略、モデル開発中の中国の文化コンテンツに重点を置く程度から生じる可能性がある。
関連論文リスト
- TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs [13.069833806549914]
中国伝統文化理解ベンチマーク(TCC-Bench)を提案する。
TCC-Benchは、文化的に豊かで視覚的に多様なデータで構成されており、博物館の工芸品、日常の生活シーン、漫画、その他の文化的に重要な文脈の画像が組み込まれている。
テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。
論文 参考訳(メタデータ) (2025-05-16T14:10:41Z) - WenyanGPT: A Large Language Model for Classical Chinese Tasks [36.380841559581945]
既存の自然言語処理モデルは、主に現代中国語に最適化されており、古典中国語では不十分なパフォーマンスをもたらす。
LLaMA3-8B中国語モデルの事前学習と微調整を継続することにより、古典中国語タスクに特化して設計された大型言語モデルWenyanGPTを構築する。
論文 参考訳(メタデータ) (2025-04-29T10:19:05Z) - CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation [49.41531871253317]
我々は、新しい中国語ビジョン言語理解評価ベンチマークデータセットを提案する。
オブジェクトカテゴリとイメージの選択は、完全に中国のネイティブスピーカーによって駆動される。
中国文化関連VLデータセットの微調整により,VLMの中国文化理解が効果的に向上することが確認された。
論文 参考訳(メタデータ) (2024-07-01T08:35:37Z) - Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model [36.01840141194335]
2B大言語モデル(LLM)であるCT-LLMを導入する。
CT-LLMは、スクラッチから一意に開始され、中国語のテキストデータを組み込んで従来の手法から分岐する。
CT-LLMは中国語のタスクに優れており、SFTを通して英語で適応性を示す。
論文 参考訳(メタデータ) (2024-04-05T15:20:02Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Towards Better Instruction Following Language Models for Chinese:
Investigating the Impact of Training Data and Evaluation [12.86275938443485]
本研究では,データ量,品質,言語分布などの学習データ要素がモデル性能に及ぼす影響について検討する。
我々は,実世界の9つのシナリオを含む1,000のサンプルを用いて,様々なモデルを評価する。
GPT-3のようなプロプライエタリな言語モデルに最も近いオープンソースパフォーマンスを持つモデルであるLLaMAの語彙を拡張します。
論文 参考訳(メタデータ) (2023-04-16T18:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。