論文の概要: The Echoes of Multilinguality: Tracing Cultural Value Shifts during LM Fine-tuning
- arxiv url: http://arxiv.org/abs/2405.12744v1
- Date: Tue, 21 May 2024 12:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 13:19:55.433944
- Title: The Echoes of Multilinguality: Tracing Cultural Value Shifts during LM Fine-tuning
- Title(参考訳): 多言語性のエコー:LM微調整における文化的価値変化の追跡
- Authors: Rochelle Choenni, Anne Lauscher, Ekaterina Shutova,
- Abstract要約: 本研究では, 異なるテスト言語で符号化された文化的価値に言語がどのように影響するかを, 微調整時にどのように修正されるかを検討する。
最後に、トレーニングデータ属性法を用いて、微調整の例やそれらが生み出す言語にパターンを見つける。
- 参考スコア(独自算出の注目度): 23.418656688405605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Texts written in different languages reflect different culturally-dependent beliefs of their writers. Thus, we expect multilingual LMs (MLMs), that are jointly trained on a concatenation of text in multiple languages, to encode different cultural values for each language. Yet, as the 'multilinguality' of these LMs is driven by cross-lingual sharing, we also have reason to belief that cultural values bleed over from one language into another. This limits the use of MLMs in practice, as apart from being proficient in generating text in multiple languages, creating language technology that can serve a community also requires the output of LMs to be sensitive to their biases (Naous et al., 2023). Yet, little is known about how cultural values emerge and evolve in MLMs (Hershcovich et al., 2022a). We are the first to study how languages can exert influence on the cultural values encoded for different test languages, by studying how such values are revised during fine-tuning. Focusing on the fine-tuning stage allows us to study the interplay between value shifts when exposed to new linguistic experience from different data sources and languages. Lastly, we use a training data attribution method to find patterns in the fine-tuning examples, and the languages that they come from, that tend to instigate value shifts.
- Abstract(参考訳): 異なる言語で書かれたテキストは、それぞれの作家の文化的に依存した信念を反映している。
したがって、複数の言語におけるテキストの結合を共同で訓練した多言語LM(MLM)が、言語毎に異なる文化的価値を符号化することを期待している。
しかし、これらのLMの「多言語性」は言語間共有によってもたらされるため、文化的な価値が一つの言語から別の言語へと変化したと考える理由もある。
これは、複数の言語でテキストを生成するのに熟練しているのとは別に、実際はMLMの使用を制限するが、コミュニティに役立てることができる言語技術を作成するためには、そのバイアスに敏感なLMの出力も必要である(Naous et al , 2023)。
しかし、MLM(Hershcovich et al , 2022a)における文化的価値の出現と発展についてはほとんど分かっていない。
我々は,言語が異なるテスト言語で符号化された文化的価値にどのように影響するかを,微調整中にどのように修正されるかを研究することで,初めて研究する。
微調整段階に着目して、異なるデータソースや言語からの新たな言語体験に曝露した場合の値シフト間の相互作用を研究することができる。
最後に、トレーニングデータ属性法を用いて、微調整の例やそれらが生み出す言語にパターンを見つける。
関連論文リスト
- Translating Across Cultures: LLMs for Intralingual Cultural Adaptation [12.5954253354303]
文化適応の課題を定義し,この課題に対する様々なモデルをベンチマークする評価フレームワークを作成する。
文化的バイアスやステレオタイプを含む自動適応の可能性について分析する。
論文 参考訳(メタデータ) (2024-06-20T17:06:58Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - Exploring Multilingual Concepts of Human Value in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages? [34.38469832305664]
異なる多言語性を持つ7種類の人的価値、16の言語、3のLLM系列を探索する。
これらの概念の言語間分析は、言語資源の相違から生じる3つの特徴を明らかにしている。
LLMの事前学習のための多言語データの合成について提案する。
論文 参考訳(メタデータ) (2024-02-28T07:18:39Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Benchmarking LLM-based Machine Translation on Cultural Awareness [53.83912076814508]
文化的内容の翻訳は、効果的な異文化間コミュニケーションに不可欠である。
インコンテキスト学習の最近の進歩は、機械翻訳タスクにおける大規模言語モデル(LLM)のガイドに軽量なプロンプトを利用する。
我々は、文化的に関連する並列コーパスを構築するために、新しいデータキュレーションパイプラインを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:56:33Z) - Cross-Cultural Transfer Learning for Chinese Offensive Language
Detection [9.341003339029221]
本研究では,異なる文化背景からの攻撃的言語検出データを用いた転帰学習の効果を検討することを目的とする。
また, 言語モデルの伝達性に悪影響を及ぼす要因として, 文化特有のバイアスがあることがわかった。
しかし,数ショットの学習シナリオでは,限られた資源を用いた非英語攻撃型言語検出が期待できる可能性を示した。
論文 参考訳(メタデータ) (2023-03-31T09:50:07Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。