論文の概要: Large Linguistic Models: Analyzing theoretical linguistic abilities of
LLMs
- arxiv url: http://arxiv.org/abs/2305.00948v2
- Date: Mon, 21 Aug 2023 16:52:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 00:05:38.050329
- Title: Large Linguistic Models: Analyzing theoretical linguistic abilities of
LLMs
- Title(参考訳): 大規模言語モデル:LLMの理論言語能力の解析
- Authors: Ga\v{s}per Begu\v{s} and Maksymilian D\k{a}bkowski and Ryan Rhodes
- Abstract要約: 大規模言語モデルでは,言語データの一貫性のある形式解析が可能であることを示す。
形式言語学の3つのサブフィールド(構文、音韻学、意味論)に焦点を当てる。
この調査の行は、モデル表現が明示的なプロンプトによってアクセスされる深層学習の行動解釈可能性を示している。
- 参考スコア(独自算出の注目度): 7.4815059492034335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of large language models (LLMs) has recently improved to the
point where the models can perform well on many language tasks. We show here
that for the first time, the models can also generate coherent and valid formal
analyses of linguistic data and illustrate the vast potential of large language
models for analyses of their metalinguistic abilities. LLMs are primarily
trained on language data in the form of text; analyzing and evaluating their
metalinguistic abilities improves our understanding of their general
capabilities and sheds new light on theoretical models in linguistics. In this
paper, we probe into GPT-4's metalinguistic capabilities by focusing on three
subfields of formal linguistics: syntax, phonology, and semantics. We outline a
research program for metalinguistic analyses of large language models, propose
experimental designs, provide general guidelines, discuss limitations, and
offer future directions for this line of research. This line of inquiry also
exemplifies behavioral interpretability of deep learning, where models'
representations are accessed by explicit prompting rather than internal
representations.
- Abstract(参考訳): 大規模言語モデル(llms)のパフォーマンスは、最近改善され、多くの言語タスクでモデルがうまく機能するようになりました。
そこで本研究では,このモデルが初めて言語データのコヒーレントかつ妥当な形式的分析を生成できることを示し,そのメタリング能力の分析における大規模言語モデルの可能性を示す。
LLMは、主にテキスト形式で言語データに基づいて訓練されており、それらの金属工学的能力を分析し評価することで、一般的な能力に対する理解が向上し、言語学における理論モデルに新たな光を放つ。
本稿では,文法,音韻学,意味論の3つのサブフィールドに着目し,GPT-4のメタ言語機能について検討する。
本稿では,大規模言語モデルの金属学的解析のための研究プログラムを概説し,実験設計の提案,一般ガイドラインの提示,限界の議論,今後の方向性について述べる。
この調査の行はまた、モデル表現が内部表現よりも明示的なプロンプトによってアクセスされる深層学習の行動解釈可能性を示している。
関連論文リスト
- Small Language Models Also Work With Small Vocabularies: Probing the Linguistic Abilities of Grapheme- and Phoneme-Based Baby Llamas [7.585433383340306]
トークン化のない,音素および音素に基づく言語モデルにより,強力な言語性能が得られることを示す。
以上の結果から,より言語学的に妥当な言語モデルを作成する上で,有望な方向性が示唆された。
論文 参考訳(メタデータ) (2024-10-02T12:36:08Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Large Language Models Are Not Strong Abstract Reasoners [12.354660792999269]
大規模言語モデルは、さまざまな自然言語処理タスクにおいて、非常に大きなパフォーマンスを示しています。
LLMが人間のような認知能力を達成できるのか、あるいはこれらのモデルがいまだに根本から取り囲まれているのかは不明だ。
我々は,抽象的推論タスクの記憶以上の言語モデルを評価するための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-31T04:50:29Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - An Overview on Language Models: Recent Developments and Outlook [32.528770408502396]
従来の言語モデル(CLM)は、因果的に言語シーケンスの確率を予測することを目的としている。
事前学習言語モデル(PLM)はより広範な概念をカバーし、因果逐次モデリングと下流アプリケーションのための微調整の両方に使用することができる。
論文 参考訳(メタデータ) (2023-03-10T07:55:00Z) - Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文 参考訳(メタデータ) (2023-03-01T08:53:36Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z) - A Survey of Knowledge Enhanced Pre-trained Models [28.160826399552462]
知識注入を伴う事前学習言語モデルを知識強化事前学習言語モデル(KEPLM)と呼ぶ。
これらのモデルは深い理解と論理的推論を示し、解釈可能性を導入する。
論文 参考訳(メタデータ) (2021-10-01T08:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。