論文の概要: Selected Languages are All You Need for Cross-lingual Truthfulness Transfer
- arxiv url: http://arxiv.org/abs/2406.14434v2
- Date: Sat, 14 Dec 2024 09:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:22.899773
- Title: Selected Languages are All You Need for Cross-lingual Truthfulness Transfer
- Title(参考訳): 言語間真性伝達に必要なのは選択言語だけだ
- Authors: Weihao Liu, Ning Wu, Wenbiao Ding, Shining Liang, Ming Gong, Dongmei Zhang,
- Abstract要約: Fact-aware Multilingual Selective Synergy (FaMSS) と呼ばれる言語間真性伝達の実践的手法を提案する。
FaMSSは、言語バイアスと転送コントリビューションによって全てのテスト対象言語の最適なサブセットを選択し、その後、言語間真性伝達のための翻訳命令チューニングを使用することができる。
- 参考スコア(独自算出の注目度): 38.3269908062146
- License:
- Abstract: Truthfulness stands out as an essential challenge for Large Language Models (LLMs). Although many works have developed various ways for truthfulness enhancement, they seldom focus on truthfulness in multilingual scenarios. Meanwhile, contemporary multilingual aligning technologies struggle to balance numerous languages and often exhibit serious truthfulness gaps across different languages, especially those that differ greatly from English. In our work, we extend truthfulness evaluation to multilingual contexts and propose a practical method for cross-lingual truthfulness transfer called Fact-aware Multilingual Selective Synergy (FaMSS). FaMSS is able to select an optimal subset of all tested languages by language bias and transfer contributions, and then employ translation instruction tuning for cross-lingual truthfulness transfer. Experimental results demonstrate that our approach can effectively reduce the multilingual representation disparity and boost cross-lingual truthfulness transfer of LLMs.
- Abstract(参考訳): 真実性は、Large Language Models (LLM) にとって重要な課題である。
多くの研究が真理性向上のための様々な方法を開発してきたが、多言語シナリオにおける真理性に焦点を当てることはめったにない。
一方、現代の多言語整合技術は、多くの言語のバランスをとるのに苦労し、しばしば異なる言語、特に英語と大きく異なる言語間で深刻な真理性ギャップを示す。
本研究では,多言語文脈における真性評価を拡張し,Fact-aware Multilingual Selective Synergy (FaMSS)と呼ばれる言語間真性伝達の実践的手法を提案する。
FaMSSは、言語バイアスと転送コントリビューションによって全てのテスト対象言語の最適なサブセットを選択し、その後、言語間真性伝達のための翻訳命令チューニングを使用することができる。
実験により,LLMの多言語表現の相違を効果的に低減し,多言語間真性伝達を促進できることが示された。
関連論文リスト
- Multilingual Large Language Models: A Systematic Survey [38.972546467173565]
本稿では,多言語大言語モデル(MLLM)の最新研究を包括的に調査する。
まず,MLLMのアーキテクチャと事前学習の目的について論じ,多言語機能に寄与する重要なコンポーネントや方法論を強調した。
本稿では,MLLMの言語間知識,推論,人的価値との整合性,安全性,解釈可能性,専門的応用に関する詳細な分類とロードマップを示す。
論文 参考訳(メタデータ) (2024-11-17T13:21:26Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - LLM for Everyone: Representing the Underrepresented in Large Language Models [21.07409393578553]
この論文は、表現不足言語に焦点をあてて、NLPの研究と開発におけるギャップを埋めることを目的としている。
大規模言語モデル(LLM)の包括的評価を行い,それらの能力を評価する。
提案手法は、言語間連続的命令チューニング、検索に基づく言語間インコンテキスト学習、コンテキスト内クエリアライメントを網羅する。
論文 参考訳(メタデータ) (2024-09-20T20:53:22Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias [5.104497013562654]
本稿では,MLLMの進化,鍵技術,多言語能力について概説する。
我々は、MLLMのトレーニングや下流タスクに適した多言語データセットに広く利用されている多言語コーパスについて検討する。
本稿では,MLLMのカテゴリと評価指標を含むバイアスについて論じ,既存のデバイアス手法を要約する。
論文 参考訳(メタデータ) (2024-04-01T05:13:56Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。