論文の概要: Can Code-Switched Texts Activate a Knowledge Switch in LLMs? A Case Study on English-Korean Code-Switching
- arxiv url: http://arxiv.org/abs/2410.18436v1
- Date: Thu, 24 Oct 2024 05:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:44:07.603588
- Title: Can Code-Switched Texts Activate a Knowledge Switch in LLMs? A Case Study on English-Korean Code-Switching
- Title(参考訳): コードスイッチドテキストはLLMの知識スイッチを活性化できるか? : 英語と韓国のコードスイッチングを事例として
- Authors: Seoyeon Kim, Huiseo Kim, Chanjun Park, Jinyoung Yeo, Dongha Lee,
- Abstract要約: コードスイッチング(英語版) (CS) は微妙な文化的・言語的なニュアンスを伝えることができ、それ以外は翻訳で失われることがある。
近年の多言語大言語モデル(LLM)は,CSの理解など,様々な面で優れた多言語能力を示す。
- 参考スコア(独自算出の注目度): 14.841981996951395
- License:
- Abstract: Code-switching (CS), a phenomenon where multilingual speakers alternate between languages in a discourse, can convey subtle cultural and linguistic nuances that can be otherwise lost in translation. Recent state-of-the-art multilingual large language models (LLMs) demonstrate excellent multilingual abilities in various aspects including understanding CS, but the power of CS in eliciting language-specific knowledge is yet to be discovered. Therefore, we investigate the effectiveness of code-switching on a wide range of multilingual LLMs in terms of knowledge activation, or the act of identifying and leveraging knowledge for reasoning. To facilitate the research, we first present EnKoQA, a synthetic English-Korean CS question-answering dataset. We provide a comprehensive analysis on a variety of multilingual LLMs by subdividing activation process into knowledge identification and knowledge leveraging. Our experiments demonstrate that compared to English text, CS can faithfully activate knowledge inside LLMs, especially on language-specific domains. In addition, the performance gap between CS and English is larger in models that show excellent monolingual abilities, suggesting that there exists a correlation with CS and Korean proficiency.
- Abstract(参考訳): コードスイッチング(英: Code-switching, CS)とは、多言語話者が会話の中で言語を交互に交互に話す現象であり、翻訳で失われうる微妙な文化的・言語的なニュアンスを伝達することができる現象である。
近年の多言語多言語大言語モデル (LLM) はCSの理解など様々な面で優れた多言語能力を示しているが、言語固有の知識を抽出するCSの力はまだ発見されていない。
そこで本研究では,多言語 LLM におけるコードスイッチングの有効性について,知識の活性化,あるいは推論のための知識の識別と活用の行為について検討する。
本研究では,まず,英語・韓国語 CS の質問応答データセットである EnKoQA を提示する。
本稿では,活性化過程を知識識別と知識活用に分割することで,多言語LLMの包括的分析を行う。
我々の実験は、英語のテキストと比較して、CSはLLM内の知識、特に言語固有のドメインを忠実に活性化できることを示した。
さらに,単言語能力の優れたモデルでは,CSと英語のパフォーマンスギャップが大きく,CSと韓国の習熟度に相関があることが示唆された。
関連論文リスト
- Code-mixed LLM: Improve Large Language Models' Capability to Handle Code-Mixing through Reinforcement Learning from AI Feedback [11.223762031003671]
コードミキシングは、構文ミスマッチやセマンティックブレンディングなど、日常生活におけるユニークな課題を導入している。
大規模言語モデル(LLM)は、人間の言語を理解するのに前例のない能力を提供することによって、自然言語処理(NLP)の分野に革命をもたらした。
本稿では,人間フィードバック(RLHF)とコード混合機械翻訳タスクの強化学習を通じて,多言語LLMのコードミキシング理解能力を改善することを提案する。
論文 参考訳(メタデータ) (2024-11-13T22:56:00Z) - Code-Switching Curriculum Learning for Multilingual Transfer in LLMs [43.85646680303273]
大規模言語モデル(LLM)は、様々なタスクにおいて、ほぼ人間レベルのパフォーマンスを示すが、その性能は、少数の高リソース言語の後、劇的に低下する。
第2言語習得の人的プロセスに触発されて,LLMの言語間移動を促進するためのCSCL(Code-Switching Curchical Learning)を提案する。
CSCLは,1)トークンレベルのコードスイッチング,2)文レベルのコードスイッチング,3)単言語コーパスからなるカリキュラムを用いて,段階的にモデルを訓練することで,人間の言語学習の段階を模倣する。
論文 参考訳(メタデータ) (2024-11-04T06:31:26Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Code-Switching Red-Teaming: LLM Evaluation for Safety and Multilingual Understanding [10.154013836043816]
赤チームクエリのコードスイッチングは、大規模言語モデル(LLM)の望ましくない振る舞いを効果的に引き出すことができる
コードスイッチング型リピートクエリを合成するための,シンプルで効果的なフレームワークCSRTを導入する。
CSRTは,既存の多言語リピート技術よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-06-17T06:08:18Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。
この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。
深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文 参考訳(メタデータ) (2024-03-15T12:47:39Z) - Decomposed Prompting: Unveiling Multilingual Linguistic Structure
Knowledge in English-Centric Large Language Models [12.700783525558721]
GPT-3やLLaMAのような英語中心のLarge Language Models (LLM)は、多言語タスクを実行する素晴らしい能力を示している。
本稿では,シーケンスラベリングタスクにおいて,これらのLLMの言語構造理解を探索するための分解的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。