論文の概要: A blind spot for large language models: Supradiegetic linguistic information
- arxiv url: http://arxiv.org/abs/2306.06794v3
- Date: Thu, 16 May 2024 13:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 19:43:51.612993
- Title: A blind spot for large language models: Supradiegetic linguistic information
- Title(参考訳): 大規模言語モデルにおける盲点:超言語的言語情報
- Authors: Julia Witte Zimmerman, Denis Hudon, Kathryn Cramer, Jonathan St. Onge, Mikaela Fudolig, Milo Z. Trujillo, Christopher M. Danforth, Peter Sheridan Dodds,
- Abstract要約: ChatGPTのような大きな言語モデル(LLM)は、驚くべきことに人間らしく、言語的な流布を実現する。
本稿では,言語学,具体的認知,認知科学,数学,歴史など,いくつかの分野の思想を用いて,この枠組みの詳細について検討する。
これらの概念を用いて,ChatGPT などの LLM がパリンドロム処理に苦慮する理由,シンボルの視覚的特徴,シュメール・キュニフォームの翻訳,整数列の継続について検討する。
- 参考スコア(独自算出の注目度): 0.602276990341246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) like ChatGPT reflect profound changes in the field of Artificial Intelligence, achieving a linguistic fluency that is impressively, even shockingly, human-like. The extent of their current and potential capabilities is an active area of investigation by no means limited to scientific researchers. It is common for people to frame the training data for LLMs as "text" or even "language". We examine the details of this framing using ideas from several areas, including linguistics, embodied cognition, cognitive science, mathematics, and history. We propose that considering what it is like to be an LLM like ChatGPT, as Nagel might have put it, can help us gain insight into its capabilities in general, and in particular, that its exposure to linguistic training data can be productively reframed as exposure to the diegetic information encoded in language, and its deficits can be reframed as ignorance of extradiegetic information, including supradiegetic linguistic information. Supradiegetic linguistic information consists of those arbitrary aspects of the physical form of language that are not derivable from the one-dimensional relations of context -- frequency, adjacency, proximity, co-occurrence -- that LLMs like ChatGPT have access to. Roughly speaking, the diegetic portion of a word can be thought of as its function, its meaning, as the information in a theoretical vector in a word embedding, while the supradiegetic portion of the word can be thought of as its form, like the shapes of its letters or the sounds of its syllables. We use these concepts to investigate why LLMs like ChatGPT have trouble handling palindromes, the visual characteristics of symbols, translating Sumerian cuneiform, and continuing integer sequences.
- Abstract(参考訳): ChatGPTのような大きな言語モデル(LLM)は、人工知能の分野における大きな変化を反映しており、驚くべきことに、衝撃的にも人間らしく、言語的な流布を達成している。
彼らの現在の能力と潜在能力の範囲は、科学研究者に限らず活発な調査領域である。
LLMのトレーニングデータを「テキスト」あるいは「言語」としてフレーム化することは一般的である。
本稿では,言語学,具体的認知,認知科学,数学,歴史など,いくつかの分野の思想を用いて,この枠組みの詳細について検討する。
我々は,ChatGPTのようなLCMがどのようなものかを考えると,Nagel氏が言うように,言語訓練データへの露出は,言語に符号化されたダイジェティック情報への露出として生産的に再編成可能であり,その欠陥は,相補的言語情報を含む外的情報の無知として再編成可能であることを示唆する。
相補的言語情報は、ChatGPTのようなLLMがアクセス可能な文脈(頻度、隣接性、近接性、共起性)の1次元関係から導出できない、物理的な言語の形の任意の側面で構成されている。
おおまかに言えば、単語のダイジェティック部分は、その機能、その意味を、単語の埋め込みにおける理論ベクトルの情報とみなすことができ、その単語の擬態的な部分は、その文字の形状や音節の音のような、その形式とみなすことができる。
これらの概念を用いて,ChatGPT などの LLM がパリンドロム処理に苦慮する理由,シンボルの視覚的特徴,シュメール・キュニフォームの翻訳,整数列の継続について検討する。
関連論文リスト
- Large Models of What? Mistaking Engineering Achievements for Human Linguistic Agency [0.11510009152620666]
我々は,Large Language Models(LLM)の言語能力に関する主張は,少なくとも2つの根拠のない仮定に基づいていると主張している。
言語完全性は、自然言語のような明瞭で完全なものが存在すると仮定する。
データ完全性の仮定は、言語がデータによって定量化され、完全にキャプチャされるという信念に依存している。
論文 参考訳(メタデータ) (2024-07-11T18:06:01Z) - Unveiling A Core Linguistic Region in Large Language Models [49.860260050718516]
本稿では,脳局在化をプロトタイプとして用いた類似研究を行う。
我々は、言語能力に対応する大規模言語モデルにおいて、中核領域を発見した。
我々は,言語能力の向上が必ずしもモデルの知識レベルの向上に伴わないことを観察する。
論文 参考訳(メタデータ) (2023-10-23T13:31:32Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Representing Affect Information in Word Embeddings [5.378735006566249]
大規模ニューラルネットワークで事前学習した単語の埋め込みにおいて、単語の感情の意味がコード化されているかどうかを検討した。
埋め込みは静的あるいは文脈的に変化し、事前学習と微調整の段階で特定の情報にどの程度影響するかが優先された。
論文 参考訳(メタデータ) (2022-09-21T18:16:33Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Can phones, syllables, and words emerge as side-products of
cross-situational audiovisual learning? -- A computational investigation [2.28438857884398]
いわゆる潜在言語仮説(LLH)について検討する。
LLHは言語表現学習を、知覚のモダリティ内および横断的な一般的な予測処理に結びつける。
我々は、様々なニューラルネットワークモデルを用いた広範学習シミュレーションにおけるLLHをさらに探求する。
論文 参考訳(メタデータ) (2021-09-29T05:49:46Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。