論文の概要: Fine Tuning Methods for Low-resource Languages
- arxiv url: http://arxiv.org/abs/2510.04139v1
- Date: Sun, 05 Oct 2025 10:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.484361
- Title: Fine Tuning Methods for Low-resource Languages
- Title(参考訳): 低リソース言語のための微調整法
- Authors: Tim Bakkenes, Daniel Wang, Anton Johansson,
- Abstract要約: 本研究は、文化的に関連のあるデータセットを作成し、Gemma 2モデルを後付けする手法を開発した。
これは、表現不足の言語に対するGemma 2のパフォーマンスを高め、他の人が同じことをする方法を示すことを目的としている。
- 参考スコア(独自算出の注目度): 0.9204837663989083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of Large Language Models has not been inclusive of all cultures. The models are mostly trained on English texts and culture which makes them underperform in other languages and cultural contexts. By developing a generalizable method for preparing culturally relevant datasets and post-training the Gemma 2 model, this project aimed to increase the performance of Gemma 2 for an underrepresented language and showcase how others can do the same to unlock the power of Generative AI in their country and preserve their cultural heritage.
- Abstract(参考訳): 大規模言語モデルの台頭は、すべての文化に含まれていない。
モデルは主に英語のテキストや文化に基づいて訓練されており、他の言語や文化の文脈では性能が劣っている。
このプロジェクトは、文化的に関連のあるデータセットを作成し、Gemma 2モデルを後から学習する汎用的な方法を開発することにより、表現不足言語におけるGemma 2の性能向上と、その国のジェネレーティブAIの力を解き放ち、文化的遺産を維持するために、他者がどのようにして同じことをできるかを示すことを目的としている。
関連論文リスト
- CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - Grounding Multilingual Multimodal LLMs With Cultural Knowledge [48.95126394270723]
本稿では,MLLMを文化的知識に根ざしたデータ中心型アプローチを提案する。
CulturalGroundは、42の国と39の言語にまたがる2200万の高品質で文化的に豊かなVQAペアで構成されている。
我々は,MLLM CulturalPangeaをCulturalGround上で学習し,汎用性を維持するために,標準の多言語指導訓練データをインターリーブする。
論文 参考訳(メタデータ) (2025-08-10T16:24:11Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Multilingual != Multicultural: Evaluating Gaps Between Multilingual Capabilities and Cultural Alignment in LLMs [5.8210182389588105]
大規模言語モデル(LLM)は、グローバル言語全体でますます能力を高めつつある。
しかし、言語間のコミュニケーション能力が必ずしも適切な文化的表現に変換されるとは限らない。
GoogleのGemmaモデルとOpenAIのターボシリーズの2つのモデルを比較します。
言語能力と文化的アライメントの間には、一貫した関係は見つからない。
論文 参考訳(メタデータ) (2025-02-23T11:02:41Z) - Attributing Culture-Conditioned Generations to Pretraining Corpora [26.992883552982335]
我々は、事前学習データパターンに基づいて、モデルがエンティティと文化を関連付ける方法を分析する。
プレトレーニングデータの高周波カルチャーは記憶されたシンボルでより多くの世代を産み出すのに対し、低周波カルチャーの中には何も生まないものもある。
論文 参考訳(メタデータ) (2024-12-30T07:09:25Z) - KULTURE Bench: A Benchmark for Assessing Language Model in Korean Cultural Context [5.693660906643207]
韓国文化に特化して設計された評価フレームワークであるKULTURE Benchを紹介する。
言語モデルの文化的理解と、単語、文、段落レベルでの推論能力を評価するように設計されている。
その結果,韓国文化のより深い側面に関連する文章の理解は,依然として改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-12-10T07:20:51Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。