論文の概要: Scaling Cultural Resources for Improving Generative Models
- arxiv url: http://arxiv.org/abs/2510.25167v1
- Date: Wed, 29 Oct 2025 04:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.087233
- Title: Scaling Cultural Resources for Improving Generative Models
- Title(参考訳): 生成モデルを改善するための文化資源のスケーリング
- Authors: Hayk Stepanyan, Aishwarya Verma, Andrew Zaldivar, Rutledge Chin Feman, Erin MacMurray van Liemt, Charu Kalia, Vinodkumar Prabhakaran, Sunipa Dev,
- Abstract要約: 生成モデルは、異なるグローバルな文化的文脈や言語のパフォーマンスを低下させたことが知られている。
文化的に健全な多言語データを収集し,貢献するために,反復可能でスケーラブルな多言語パイプラインを構築した。
- 参考スコア(独自算出の注目度): 9.607261698424496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models are known to have reduced performance in different global cultural contexts and languages. While continual data updates have been commonly conducted to improve overall model performance, bolstering and evaluating this cross-cultural competence of generative AI models requires data resources to be intentionally expanded to include global contexts and languages. In this work, we construct a repeatable, scalable, multi-pronged pipeline to collect and contribute culturally salient, multilingual data. We posit that such data can assess the state of the global applicability of our models and thus, in turn, help identify and improve upon cross-cultural gaps.
- Abstract(参考訳): 生成モデルは、異なるグローバルな文化的文脈や言語のパフォーマンスを低下させたことが知られている。
連続的なデータ更新は、全体的なモデルパフォーマンスを改善するために一般的に行われているが、生成AIモデルのこの異文化間の能力の強化と評価には、グローバルなコンテキストや言語を含むように意図的に拡張する必要がある。
本研究では,文化的に健全な多言語データを収集し,コントリビューションするために,反復可能でスケーラブルな多言語パイプラインを構築した。
このようなデータによって、我々のモデルのグローバルな適用可能性を評価することができ、それによって、異文化間ギャップの特定と改善に役立てることができると仮定する。
関連論文リスト
- The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages [18.087937520281965]
インドの13言語にまたがる950万のデータポイントからなる大規模合成命令追従データセットであるUpdeshを紹介した。
自動メトリクスと人的アノテーションの両方を10k評価に取り入れた総合的な評価は、生成されたデータが高品質であることを示している。
Updeshでトレーニングされたモデルは、生成タスクにおいて一貫して大きな利益を達成し、多重選択スタイルのNLUタスクにおいて競争力を維持する。
論文 参考訳(メタデータ) (2025-09-25T15:13:00Z) - Grounding Multilingual Multimodal LLMs With Cultural Knowledge [48.95126394270723]
本稿では,MLLMを文化的知識に根ざしたデータ中心型アプローチを提案する。
CulturalGroundは、42の国と39の言語にまたがる2200万の高品質で文化的に豊かなVQAペアで構成されている。
我々は,MLLM CulturalPangeaをCulturalGround上で学習し,汎用性を維持するために,標準の多言語指導訓練データをインターリーブする。
論文 参考訳(メタデータ) (2025-08-10T16:24:11Z) - CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis [41.261808170896686]
CulFiTは、多言語データと微粒な報酬モデリングを利用して、文化的感受性と傾きを高める新しいトレーニングパラダイムである。
本手法は,文化関連諸質問を合成し,文化関連言語における批判データを構築し,文化文献を検証可能な知識単位に分解するために,きめ細かい報酬を用いる。
論文 参考訳(メタデータ) (2025-05-26T04:08:26Z) - More Room for Language: Investigating the Effect of Retrieval on Language Models [3.8574940917179164]
本稿では、これらのモデルを完全に制御可能な環境で研究するための「理想的検索」手法を提案する。
本研究では,検索の強化が言語モデルの動作に与える影響を評価するための評価を行う。
論文 参考訳(メタデータ) (2024-04-16T22:43:48Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models [74.81091933317882]
進化するウィキペディアデータベース上でのLMのトレーニングと評価を目的とした,時間的に進化する質問応答ベンチマークであるEvolvingQAを紹介する。
既存の継続的な学習ベースラインが、時代遅れの知識の更新と削除に悩まされていることを明らかにする。
本研究の目的は,実世界の情報の動的性質をモデル化することであり,言語モデルの進化適応性を忠実に評価することである。
論文 参考訳(メタデータ) (2023-11-14T12:12:02Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。