論文の概要: Probing LLMs for Joint Encoding of Linguistic Categories
- arxiv url: http://arxiv.org/abs/2310.18696v1
- Date: Sat, 28 Oct 2023 12:46:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 17:07:56.214946
- Title: Probing LLMs for Joint Encoding of Linguistic Categories
- Title(参考訳): 言語カテゴリの合同符号化のためのLLMの提案
- Authors: Giulio Starace, Konstantinos Papakostas, Rochelle Choenni, Apostolos
Panagiotopoulos, Matteo Rosati, Alina Leidinger, Ekaterina Shutova
- Abstract要約: 大規模言語モデル(LLM)における言語カテゴリーの合同符号化をテストするためのフレームワークを提案する。
関連音声(POS)クラスと異なる(POSクラスと関連する構文依存関係)言語階層の双方で共同符号化の証拠を見いだした。
- 参考スコア(独自算出の注目度): 10.988109020181563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit impressive performance on a range of NLP
tasks, due to the general-purpose linguistic knowledge acquired during
pretraining. Existing model interpretability research (Tenney et al., 2019)
suggests that a linguistic hierarchy emerges in the LLM layers, with lower
layers better suited to solving syntactic tasks and higher layers employed for
semantic processing. Yet, little is known about how encodings of different
linguistic phenomena interact within the models and to what extent processing
of linguistically-related categories relies on the same, shared model
representations. In this paper, we propose a framework for testing the joint
encoding of linguistic categories in LLMs. Focusing on syntax, we find evidence
of joint encoding both at the same (related part-of-speech (POS) classes) and
different (POS classes and related syntactic dependency relations) levels of
linguistic hierarchy. Our cross-lingual experiments show that the same patterns
hold across languages in multilingual LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、事前訓練中に習得された汎用言語知識のため、様々なNLPタスクにおいて優れたパフォーマンスを示す。
既存のモデル解釈可能性の研究(Tenney et al., 2019)では、LLM層に言語階層が出現し、下位層は構文的タスクの解決に適しており、より上位層はセマンティック処理に使用されることを示唆している。
しかし、異なる言語現象のエンコーディングがモデル内でどのように相互作用するか、言語関連カテゴリの処理が同じ共有モデル表現に依存する程度についてはほとんど知られていない。
本稿では,LLMにおける言語カテゴリの共用符号化をテストするためのフレームワークを提案する。
構文に焦点をあてて,同一のクラス(pos(part-of-speech)クラス)と異なるレベルの言語階層(posクラスと関連する構文依存関係)の共用エンコーディングの証拠を見いだした。
我々の言語間実験は、同じパターンが多言語LLMの言語にまたがっていることを示している。
関連論文リスト
- Converging to a Lingua Franca: Evolution of Linguistic Regions and Semantics Alignment in Multilingual Large Language Models [11.423589362950812]
大規模言語モデル(LLM)は、特に多言語文脈において顕著な性能を示した。
近年の研究では、LLMは、ある言語で学んだスキルを他の言語に伝達することができることが示唆されているが、この能力の背後にある内部メカニズムはいまだ不明である。
本稿では,LLMの内部動作に関する知見を提供し,言語間能力の向上のための基盤を提供する。
論文 参考訳(メタデータ) (2024-10-15T15:49:15Z) - Linguistic Minimal Pairs Elicit Linguistic Similarity in Large Language Models [15.857451401890092]
我々はLarge Language Models(LLMs)が捉えた言語知識の定量化と洞察を得る。
3つの言語で100以上のLLMと150k以上の最小ペアにまたがる大規模な実験では、4つの重要な側面から言語的類似性の特性を明らかにした。
論文 参考訳(メタデータ) (2024-09-19T03:29:40Z) - Interpretability of Language Models via Task Spaces [14.543168558734001]
本稿では,解釈言語モデル (LM) の代替手法を提案する。
我々は、LM処理の品質に焦点を合わせ、言語能力に焦点をあてる。
言語現象間の関係を照らす「言語的タスク空間」を構築した。
論文 参考訳(メタデータ) (2024-06-10T16:34:30Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - Understanding the role of FFNs in driving multilingual behaviour in LLMs [0.0]
本稿では,大規模言語モデル群における多言語機能の詳細な分析を行う。
異なるレイヤにおけるモデルの多言語的振る舞いを探索する新しいメトリクスを導入し、多言語処理におけるアーキテクチャ選択の影響について光を当てる。
論文 参考訳(メタデータ) (2024-04-22T03:47:00Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。