論文の概要: LLMs Know More Than Words: A Genre Study with Syntax, Metaphor & Phonetics
- arxiv url: http://arxiv.org/abs/2512.04957v1
- Date: Thu, 04 Dec 2025 16:26:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.269414
- Title: LLMs Know More Than Words: A Genre Study with Syntax, Metaphor & Phonetics
- Title(参考訳): LLMは単語以上のことを知っている: 構文・メタファー・音声学のジェンレスタディ
- Authors: Weiye Shi, Zhaowei Zhang, Shaoheng Yan, Yaodong Yang,
- Abstract要約: 我々は,数千のパブリックドメインの著作物に無料でアクセス可能な大規模デジタルライブラリであるProject Gutenbergから派生した,新しいジャンル分類データセットを紹介する。
3つの明示的な言語的特徴セット(シンタクティックツリー構造、比喩数、音韻指標)をそれぞれ拡張し、分類性能に与える影響を評価する。
- 参考スコア(独自算出の注目度): 12.86515569519773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate remarkable potential across diverse language related tasks, yet whether they capture deeper linguistic properties, such as syntactic structure, phonetic cues, and metrical patterns from raw text remains unclear. To analysis whether LLMs can learn these features effectively and apply them to important nature language related tasks, we introduce a novel multilingual genre classification dataset derived from Project Gutenberg, a large-scale digital library offering free access to thousands of public domain literary works, comprising thousands of sentences per binary task (poetry vs. novel;drama vs. poetry;drama vs. novel) in six languages (English, French, German, Italian, Spanish, and Portuguese). We augment each with three explicit linguistic feature sets (syntactic tree structures, metaphor counts, and phonetic metrics) to evaluate their impact on classification performance. Experiments demonstrate that although LLM classifiers can learn latent linguistic structures either from raw text or from explicitly provided features, different features contribute unevenly across tasks, which underscores the importance of incorporating more complex linguistic signals during model training.
- Abstract(参考訳): 大規模言語モデル (LLM) は多種多様な言語関連タスクにおいて顕著なポテンシャルを示すが, 構文構造や音韻的手がかり, 原文からのメートル法パターンなど, より深い言語特性を捉えているかどうかは不明である。
LLMがこれらの特徴を効果的に学習し、それらを重要な自然言語関連タスクに適用できるかどうかを分析するため、言語(英語、フランス語、ドイツ語、イタリア語、スペイン語、ポルトガル語)の6つの言語(詩対新語対新語対新語対新語対新語対新語対新語)で、数千のパブリックドメイン文学作品に無料でアクセスできる大規模デジタルライブラリであるProject Gutenbergから派生した、新しい多言語ジャンル分類データセットを紹介した。
3つの明示的な言語的特徴セット(シンタクティックツリー構造、比喩数、音韻指標)をそれぞれ拡張し、分類性能に与える影響を評価する。
実験により、LLM分類器は、原文または明示された特徴から潜在言語構造を学習できるが、異なる特徴がタスク全体にわたって不均一に寄与し、モデル訓練中により複雑な言語信号を統合することの重要性が示される。
関連論文リスト
- LinguaLens: Towards Interpreting Linguistic Mechanisms of Large Language Models via Sparse Auto-Encoder [47.81850176849213]
スパースオートエンコーダ(SAE)に基づく大規模言語モデルの言語メカニズム解析のためのフレームワークを提案する。
我々は4次元(形態学、構文学、意味論、プラグマティクス)にわたる中国語と英語の言語的特徴を幅広く抽出する。
本研究は, LLMにおける言語知識の内在的表現, 層間および言語間分布のパターンを明らかにし, モデル出力の制御の可能性を示した。
論文 参考訳(メタデータ) (2025-02-27T18:16:47Z) - Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement [1.4335183427838039]
我々は,特定の特性を持つ大規模でキュレートされた合成データを開発するためのアプローチを採っている。
我々は、ブラックバード言語行列(Blackbird Language Matrices)と呼ばれる新しい複数選択タスクとデータセットを使用して、特定の文法構造現象に焦点を当てる。
多言語テキストを一貫した方法で訓練したにもかかわらず、多言語事前学習言語モデルには言語固有の違いがあることが示される。
論文 参考訳(メタデータ) (2024-09-10T14:58:55Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z) - Decomposed Prompting: Probing Multilingual Linguistic Structure Knowledge in Large Language Models [54.58989938395976]
本稿では,シーケンスラベリングタスクに対する分割プロンプト手法を提案する。
提案手法は,38言語を対象としたUniversal Dependencies part-of-speech Taggedについて検証する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。