論文の概要: XTransplant: A Probe into the Upper Bound Performance of Multilingual Capability and Culture Adaptability in LLMs via Mutual Cross-lingual Feed-forward Transplantation
- arxiv url: http://arxiv.org/abs/2412.12686v1
- Date: Tue, 17 Dec 2024 09:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:33.178705
- Title: XTransplant: A Probe into the Upper Bound Performance of Multilingual Capability and Culture Adaptability in LLMs via Mutual Cross-lingual Feed-forward Transplantation
- Title(参考訳): Xtransplant:多言語間フィードフォワード移植によるLLMの上部境界性能と文化適応性
- Authors: Yangfan Ye, Xiaocheng Feng, Xiachong Feng, Libo Qin, Yichong Huang, Lei Huang, Weitao Ma, Zhirui Zhang, Yunfei Lu, Xiaohui Yan, Duyu Tang, Dandan Tu, Bing Qin,
- Abstract要約: 現在の大規模言語モデル(LLM)は多言語能力と文化的適応性に不均衡を示すことが多い。
本稿では,言語間フィードフォワード移植による言語間遅延相互作用を探索するXTransplantという探索手法を提案する。
我々は,LLMの多言語能力と文化的適応性の両方が,XTransplantによって大幅に改善される可能性を持っていることを実証的に証明した。
- 参考スコア(独自算出の注目度): 49.69780199602105
- License:
- Abstract: Current large language models (LLMs) often exhibit imbalances in multilingual capabilities and cultural adaptability, largely due to their English-centric pretraining data. To address this imbalance, we propose a probing method named XTransplant that explores cross-lingual latent interactions via cross-lingual feed-forward transplantation during inference stage, with the hope of enabling the model to leverage the strengths of both English and non-English languages. Through extensive pilot experiments, we empirically prove that both the multilingual capabilities and cultural adaptability of LLMs hold the potential to be significantly improved by XTransplant, respectively from En -> non-En and non-En -> En, highlighting the underutilization of current LLMs' multilingual potential. And the patterns observed in these pilot experiments further motivate an offline scaling inference strategy, which demonstrates consistent performance improvements in multilingual and culture-aware tasks, sometimes even surpassing multilingual supervised fine-tuning. And we do hope our further analysis and discussion could help gain deeper insights into XTransplant mechanism.
- Abstract(参考訳): 現在の大規模言語モデル(LLM)は、英語中心の事前学習データのために、多言語能力と文化的適応性に不均衡を示すことが多い。
この不均衡に対処するために、推論段階における言語間フィードフォワード移植による言語間遅延相互作用を探索するXTransplantという探索手法を提案し、このモデルが英語と非英語の双方の強みを活用できることを期待する。
本研究では,多言語能力とLLMの文化的適応性の両方が,En-> non-En および non-En-> En から XTransplant によって著しく向上する可能性を持っていることを実証的に証明し,現在のLLM の多言語ポテンシャルの未活用を強調した。
そして、これらの実験で観察されたパターンは、オフラインスケーリング推論戦略をさらに動機付け、多言語および文化認識タスクにおける一貫したパフォーマンス改善を示す。
そして、さらなる分析と議論が、XTransplantのメカニズムに関するより深い洞察を得る助けになることを期待しています。
関連論文リスト
- ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Contrastive Framework [78.07201802874529]
ShifConはShiftベースのContrastiveフレームワークで、他の言語の内部の前進プロセスを支配的な言語に合わせる。
非支配的な言語の表現を支配的な言語サブスペースに移行し、モデルパラメータにエンコードされた比較的リッチな情報にアクセスできるようにする。
実験により、我々のShifConフレームワークは、非支配言語の性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-10-25T10:28:59Z) - Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models [104.96990850774566]
我々は,MAETと命名された多言語能力抽出と伝達手法を提案する。
我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。
実験結果から,MAETは高度能力の抽出と伝達を効果的に行うことができ,トレーニングベースライン法よりも優れることがわかった。
論文 参考訳(メタデータ) (2024-10-10T11:23:18Z) - Probing the Emergence of Cross-lingual Alignment during LLM Training [10.053333786023089]
多言語大言語モデル(LLM)は、ゼロショットの多言語間転送性能を著しく向上させる。
本研究では,LLMの事前学習において,このような言語間アライメントがどのように出現するかを検討する。
ニューロンの重なり合いと下流性能の相関関係を観察する。
論文 参考訳(メタデータ) (2024-06-19T05:31:59Z) - Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets [4.653113033432781]
多言語言語モデル(MLLM)の言語間伝達能力について検討した。
本研究は,言語間移動とそのNLP応用への応用に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-03-29T08:47:15Z) - Can Machine Translation Bridge Multilingual Pretraining and Cross-lingual Transfer Learning? [8.630930380973489]
本稿では,機械翻訳を言語表現学習の強化を目的とした継続的な学習目的として活用する可能性について検討する。
この結果から,機械翻訳の継続学習が言語間表現学習の強化に失敗することが明らかとなった。
言語横断シナリオにおける明示的な文レベルのアライメントは、言語間移動事前学習に有害である、と結論付けた。
論文 参考訳(メタデータ) (2024-03-25T13:53:04Z) - Analysis of Multi-Source Language Training in Cross-Lingual Transfer [6.992785466925966]
言語間移動(XLT)法はこのデータ不足問題に対処するのに寄与している。
XLT(Multi-Source Language Training (MSLT)-leads)と呼ばれる手法における複数のソース言語の使用により、異なる言語に対する埋め込み空間のミキシングが増加することを示す。
一方,任意の組み合わせのソース言語を使用することで,性能が常に向上するとは限らないことが判明した。
論文 参考訳(メタデータ) (2024-02-21T06:37:07Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Learning Multilingual Representation for Natural Language Understanding
with Enhanced Cross-Lingual Supervision [42.724921817550516]
そこで本稿では,MAの代替として,DA(Decomposed attention)というネットワークを提案する。
DAは言語内注意(IA)と言語間注意(CA)から構成されており、それぞれ言語内および言語間監督をモデル化している。
様々な言語間自然言語理解タスクの実験により、提案したアーキテクチャと学習戦略がモデルの言語間移動性を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-09T16:12:13Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。