論文の概要: C-Mining: Unsupervised Discovery of Seeds for Cultural Data Synthesis via Geometric Misalignment
- arxiv url: http://arxiv.org/abs/2604.15675v1
- Date: Fri, 17 Apr 2026 03:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.73146
- Title: C-Mining: Unsupervised Discovery of Seeds for Cultural Data Synthesis via Geometric Misalignment
- Title(参考訳): C-Mining:幾何学的ミスソーシングによる文化データ合成のための種子の無監督発見
- Authors: Pufan Zeng, Yilun Liu, Mingchen Dai, Mengyao Piao, Chunguang Zhao, Lingqi Miao, Shimin Tao, Weibin Meng, Minggui He, Chenxin Liu, Zhenzhen Qin, Li Zhang, Hongxia Ma, Boxing Chen, Daimeng Wei,
- Abstract要約: C-Miningは、文化的な種子の発見を計算可能なデータマイニングの定式化に変換する、教師なしのフレームワークである。
提案手法は,事前学習された埋め込み空間における文化的概念の言語間ミスアライメントを定量的な発見信号として活用する,新しい幾何学的洞察を利用する。
大規模な実験は、このシード中心のアプローチが文化的理解と推論能力を大幅に向上させることを示した。
- 参考スコア(独自算出の注目度): 20.36483440249985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving cultural alignment in Large Language Models (LLMs) increasingly depends on synthetic data generation. For such synthesis, the most vital initial step is seed curation; however, current methods lack quantifiable standards for selecting these seeds. Existing approaches rely on unscalable manual curation or bias-prone LLM extraction, treating cultural specificity as an abstract concept rather than a measurable signal. In this paper, we address this "quantification gap" by proposing C-Mining, an unsupervised framework that transforms the discovery of cultural seeds from a subjective selection process into a computable data mining formulation. Our approach exploits a novel geometric insight, leveraging the cross-lingual misalignment of cultural concepts within pre-trained embedding spaces as a quantifiable discovery signal. By systematically identifying these regions characterized by pronounced linguistic exclusivity and geometric isolation, while actively filtering out noise, C-Mining automatically extracts high-fidelity Culture Points (CPs) from raw multilingual corpora without reliance on human or LLM supervision, reducing preparation costs by more than 150-fold. We further leverage the mined knowledge to steer the synthesis of diverse instruction-tuning datasets. Extensive experiments demonstrate that this seed-centric approach significantly enhances cultural understanding and reasoning capabilities, achieving a +6.03 point improvement on CulturalBench-Hard and surpassing state-of-the-art baselines, providing a scalable, quantifiable solution for high-quality cultural data synthesis.
- Abstract(参考訳): LLM(Large Language Models)における文化的アライメントの達成は、ますます合成データ生成に依存している。
このような合成において、最も重要な最初のステップは種子のキュレーションであるが、現在の方法ではこれらの種子を選択するための定量的な基準が欠如している。
既存のアプローチは、測定可能な信号ではなく抽象的な概念として、文化的特異性を扱いながら、計算不可能な手作業のキュレーションや偏見を伴うLLM抽出に依存している。
本稿では,この「量子化ギャップ」を,主観的な選択プロセスから計算可能なデータマイニング定式化へと文化種子の発見を変換する,教師なしのフレームワークであるC-Miningを提案する。
提案手法は,事前学習された埋め込み空間における文化的概念の言語間ミスアライメントを定量的な発見信号として活用する,新しい幾何学的洞察を利用する。
C-Miningは、言語的排他性と幾何学的孤立を特徴とするこれらの領域を体系的に同定し、ノイズを積極的に除去しながら、人やLSMの監督に頼らずに、生多言語コーパスから高忠実なカルチャーポイント(CP)を自動的に抽出し、準備コストを150倍以上削減する。
さらに、マイニングされた知識を活用して、多様なインストラクションチューニングデータセットを合成する。
広範な実験により、このシード中心のアプローチは文化的理解と推論能力を大幅に向上させ、カルチャーベンチハードに+6.03ポイントの改善を達成し、最先端のベースラインを超え、高品質な文化的データ合成のためのスケーラブルで定量的なソリューションを提供することを示した。
関連論文リスト
- Prompt Programming for Cultural Bias and Alignment of Large Language Models [0.0]
大型言語モデル(LLM)は、しばしば標的の人口と不一致した文化的偏見を示す。
以前の研究は、調査対象の文化的アライメントフレームワークを導入し、文化固有のプロンプトは、誤調整を減らすことができることを示した。
本稿では,オープンウェイトLLMにおける社会科学調査に基づく予測と距離の指標を再現することにより,その枠組みを再現する。
本稿では,DSPyを用いたプロンプトプログラミングをモジュール型で最適化可能なプログラムとして導入する。
論文 参考訳(メタデータ) (2026-03-17T17:34:40Z) - Distributional Open-Ended Evaluation of LLM Cultural Value Alignment Based on Value Codebook [50.10594064510559]
DOVEは、人文テキストとLLM出力を直接比較する分散評価フレームワークである。
DOVEは, ダウンストリームタスクと31.56%の相関を達成し, 高い信頼性を保ちながら, 文化ごとのサンプル500点程度の信頼性を維持した。
論文 参考訳(メタデータ) (2026-03-16T08:33:10Z) - Private PoEtry: Private In-Context Learning via Product of Experts [58.496468062236225]
In-context Learning (ICL) は、大規模言語モデルが推論時に少数の例だけで新しいタスクに適応できるようにする。
ICLに対する既存の差分プライバシーアプローチは、計算コストが高いか、オーバーサンプリング、合成データ生成、あるいは不要なしきい値設定に依存している。
我々は、Product-of-Expertsモデルのレンズを通してプライベートICLを再構成し、理論的に基盤付けられたフレームワークを与え、アルゴリズムを自明に並列化することができる。
本手法は,従来のDP-ICL法と比較して平均30ポイント以上精度が向上し,高いプライバシー保証を維持した。
論文 参考訳(メタデータ) (2026-02-04T19:56:24Z) - Culturally-Grounded Chain-of-Thought (CG-CoT):Enhancing LLM Performance on Culturally-Specific Tasks in Low-Resource Languages [0.0]
大規模言語モデル(LLM)は、特に低リソース言語において、文化的に特定の推論タスクに苦しむ。
本稿では,文化的文脈の高密度ベクトル検索と明示的な推論シーケンスを組み合わせた新しいプロンプト戦略であるCG-CoTを紹介する。
論文 参考訳(メタデータ) (2025-06-01T21:57:02Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Scalable Frame-based Construction of Sociocultural NormBases for Socially-Aware Dialogues [66.69453609603875]
社会文化的規範は、社会的相互作用における個人的行為の指針となる。
大規模言語モデル(LLM)を用いた社会文化的ノルム(SCN)ベース構築のためのスケーラブルなアプローチを提案する。
我々は、包括的で広くアクセス可能な中国社会文化ノルムベースを構築した。
論文 参考訳(メタデータ) (2024-10-04T00:08:46Z) - CultureLLM: Incorporating Cultural Differences into Large Language Models [36.66184989869121]
CultureLLMは、大きな言語モデルに文化的差異を組み込むためのコスト効率の良いソリューションである。
我々は、リッチで低リソースな言語をカバーする9つの文化に対して、文化固有のLLMと1つの統一モデル(CultureLLM-One)を微調整する。
我々の人間による研究は、生成されたサンプルが元のサンプルと意味的に等価であることを示している。
論文 参考訳(メタデータ) (2024-02-09T04:02:43Z) - Benchmarking Machine Translation with Cultural Awareness [50.183458829028226]
文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。
多くの文化特化項目(CSI)は言語間の翻訳を欠いていることが多い。
この難しさは機械翻訳システムの文化的意識の分析を妨げる。
論文 参考訳(メタデータ) (2023-05-23T17:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。