論文の概要: Towards Truthful Multilingual Large Language Models: Benchmarking and Alignment Strategies
- arxiv url: http://arxiv.org/abs/2406.14434v1
- Date: Thu, 20 Jun 2024 15:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:52:55.920352
- Title: Towards Truthful Multilingual Large Language Models: Benchmarking and Alignment Strategies
- Title(参考訳): 真正な多言語大言語モデルに向けて:ベンチマークとアライメント戦略
- Authors: Weihao Liu, Ning Wu, Wenbiao Ding, Shining Liang, Ming Gong, Dongmei Zhang,
- Abstract要約: 多言語シナリオにおける真理性評価のためのベンチマークを構築する。
多数の言語にまたがるデータ割り当てを最適化するために,Fact-aware Multilingual Selective Synergy (FaMSS)を提案する。
- 参考スコア(独自算出の注目度): 38.3269908062146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of large language models (LLMs), building multilingual large language models (MLLMs) that can serve users worldwide holds great significance. However, existing research seldom focuses on the truthfulness of MLLMs. Meanwhile, contemporary multilingual aligning technologies struggle to balance massive languages and often exhibit serious truthfulness gaps across different languages, especially those that differ greatly from English. In our work, we construct a benchmark for truthfulness evaluation in multilingual scenarios and explore the ways to align facts across languages to enhance the truthfulness of MLLMs. Furthermore, we propose Fact-aware Multilingual Selective Synergy (FaMSS) to optimize the data allocation across a large number of languages and different data types. Experimental results demonstrate that our approach can effectively reduce the multilingual representation disparity and enhance the multilingual capabilities of LLMs.
- Abstract(参考訳): 大規模言語モデル (LLMs) の時代には、世界中のユーザに提供可能な多言語大規模言語モデル (MLLMs) の構築が大きな意味を持つ。
しかし、既存の研究はMLLMの真偽にはほとんど焦点を当てていない。
一方、現代多言語整合技術は、大規模な言語のバランスをとるのに苦労し、しばしば異なる言語、特に英語と大きく異なる言語間で深刻な真理性のギャップを生じさせる。
本研究では,多言語シナリオにおける真理性評価のベンチマークを構築し,MLLMの真理性を高めるために言語間で事実を整合させる方法について検討する。
さらに,Fact-aware Multilingual Selective Synergy (FaMSS)を提案する。
実験結果から,本手法は多言語表現の相違を効果的に低減し,LLMの多言語能力を高めることができることが示された。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Analysis of Multi-Source Language Training in Cross-Lingual Transfer [6.992785466925966]
言語間移動(XLT)法はこのデータ不足問題に対処するのに寄与している。
XLT(Multi-Source Language Training (MSLT)-leads)と呼ばれる手法における複数のソース言語の使用により、異なる言語に対する埋め込み空間のミキシングが増加することを示す。
一方,任意の組み合わせのソース言語を使用することで,性能が常に向上するとは限らないことが判明した。
論文 参考訳(メタデータ) (2024-02-21T06:37:07Z) - Language Chameleon: Transformation analysis between languages using
Cross-lingual Post-training based on Pre-trained language models [4.731313022026271]
本研究では,1つの低リソース言語に着目し,言語横断後学習(XPT)を用いた広範囲な評価と探索実験を行う。
結果から,XPTは桁違いのデータ量で訓練された単言語モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-09-14T05:20:52Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - When is BERT Multilingual? Isolating Crucial Ingredients for
Cross-lingual Transfer [15.578267998149743]
サブワード重複の欠如は,言語が単語順に異なる場合,ゼロショット転送に大きく影響することを示す。
言語間の伝達性能と単語埋め込みアライメントの間には強い相関関係がある。
その結果、言語間の単語埋め込みアライメントを明示的に改善する多言語モデルに焦点が当てられた。
論文 参考訳(メタデータ) (2021-10-27T21:25:39Z) - X-METRA-ADA: Cross-lingual Meta-Transfer Learning Adaptation to Natural
Language Understanding and Question Answering [55.57776147848929]
自然言語理解のための言語横断型メタトランシュファー学習アプローチX-METRA-ADAを提案する。
我々のアプローチは、最適化に基づくメタ学習アプローチであるMAMLに適応し、新しい言語に適応することを学ぶ。
提案手法は難易度の高い微調整に優れており,ほとんどの言語において両タスクの競合性能に到達していることを示す。
論文 参考訳(メタデータ) (2021-04-20T00:13:35Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。