論文の概要: Large language models and (non-)linguistic recursion
- arxiv url: http://arxiv.org/abs/2306.07195v1
- Date: Mon, 12 Jun 2023 15:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:02:42.339213
- Title: Large language models and (non-)linguistic recursion
- Title(参考訳): 大規模言語モデルと(非)言語的再帰
- Authors: Maksymilian D\k{a}bkowski and Ga\v{s}per Begu\v{s}
- Abstract要約: GPT-4は金属工学的能力を示す最初の大きな言語モデルである。
本稿では,変圧器にメタ言語的再帰意識が出現するかどうかを初めて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recursion is one of the hallmarks of human language. While many design
features of language have been shown to exist in animal communication systems,
recursion has not. Previous research shows that GPT-4 is the first large
language model (LLM) to exhibit metalinguistic abilities (Begu\v{s},
D\k{a}bkowski, and Rhodes 2023). Here, we propose several prompt designs aimed
at eliciting and analyzing recursive behavior in LLMs, both linguistic and
non-linguistic. We demonstrate that when explicitly prompted, GPT-4 can both
produce and analyze recursive structures. Thus, we present one of the first
studies investigating whether meta-linguistic awareness of recursion -- a
uniquely human cognitive property -- can emerge in transformers with a high
number of parameters such as GPT-4.
- Abstract(参考訳): 再帰は人間の言語の特徴の1つである。
動物コミュニケーションシステムには言語設計の特徴が数多く存在するが、再帰は行われていない。
これまでの研究では、GPT-4が金属工学的能力を示す最初の大規模言語モデル(LLM)であることが示されている(Begu\v{s}, D\k{a}bkowski, Rhodes 2023)。
本稿では,言語と非言語の両方において,LLMにおける再帰的行動の抽出と解析を目的としたいくつかのプロンプト設計を提案する。
我々は、gpt-4が明示的に推奨されると、再帰的構造を生成および分析できることを実証する。
そこで本研究では,メタ言語による再帰認識(人間特有の認知特性)が,GPT-4のような多数のパラメータを持つトランスフォーマーに出現するかどうかを初めて検討する。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Transformer-Based Models Are Not Yet Perfect At Learning to Emulate
Structural Recursion [14.739369424331478]
本稿では,プログラミング言語領域における構造的再帰という抽象概念を,シーケンスモデリング問題や学習モデルの振る舞いにうまく結合する汎用フレームワークを提案する。
フレームワークを強力な概念ツールとして、さまざまな設定の下で異なる問題を特定します。
論文 参考訳(メタデータ) (2024-01-23T18:07:38Z) - "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of
Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。
モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文 参考訳(メタデータ) (2023-10-26T21:47:59Z) - Counting the Bugs in ChatGPT's Wugs: A Multilingual Investigation into
the Morphological Capabilities of a Large Language Model [23.60677380868016]
大規模言語モデル (LLM) は近年,人間の言語スキルと比較する上で,目覚ましい言語能力に達している。
そこで本研究では,4言語でChatGPTの形態的能力の厳密な分析を行う。
ChatGPTは、特に英語の目的構築システムでは大幅に性能が低下している。
論文 参考訳(メタデータ) (2023-10-23T17:21:03Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Bidirectional Language Models Are Also Few-shot Learners [54.37445173284831]
SAP(Sequential Autoregressive Prompting)は,双方向モデルの高速化を実現する技術である。
SAPは質問応答と要約に有効であることを示す。
この結果から,より広範な言語モデルの創発的特性として,プロンプトに基づく学習が証明された。
論文 参考訳(メタデータ) (2022-09-29T01:35:57Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Unsupervised Morphological Paradigm Completion [26.318483685612765]
原文と補題リストのみを与えられたタスクは、全ての屈折形の形態的パラダイム、すなわち、補題を生成することで構成される。
i) EDIT TREE検索, (ii) 補題検索, (iii) パラダイムサイズ発見, (iv) インフレクション生成。
我々のシステムは自明なベースラインを軽快に上回り、一部の言語では最小限の教師付きシステムよりも高い精度が得られる。
論文 参考訳(メタデータ) (2020-05-03T02:56:05Z) - Learning Music Helps You Read: Using Transfer to Study Linguistic
Structure in Language Models [27.91397366776451]
遅延構造(MIDI音楽またはJavaコード)上でのLSTMのトレーニングは、自然言語でのテストパフォーマンスを改善する。
語彙重なりに制御される自然言語間の移動実験により,試験言語におけるゼロショット性能は,訓練言語とタイプ的類似性に強く相関していることが示された。
論文 参考訳(メタデータ) (2020-04-30T06:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。