論文の概要: The Astonishing Ability of Large Language Models to Parse Jabberwockified Language
- arxiv url: http://arxiv.org/abs/2602.23928v1
- Date: Fri, 27 Feb 2026 11:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.389685
- Title: The Astonishing Ability of Large Language Models to Parse Jabberwockified Language
- Title(参考訳): Parse Jabberwockified Languageに対する大規模言語モデルのアストンシング能力
- Authors: Gary Lupyan, Senyi Yang,
- Abstract要約: 大きな言語モデル(LLM)は、ひどく劣化した英語のテキストから意味を回復する驚くべき能力を持っている。
構造的手がかり(例えば、モルフォシンタクス、クローズドクラス語)が、想像以上に語彙的意味をはるかに大きく制限していることが示される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We show that large language models (LLMs) have an astonishing ability to recover meaning from severely degraded English texts. Texts in which content words have been randomly substituted by nonsense strings, e.g., "At the ghybe of the swuint, we are haiveed to Wourge Phrear-gwurr, who sproles into an ghitch flount with his crurp", can be translated to conventional English that is, in many cases, close to the original text, e.g., "At the start of the story, we meet a man, Chow, who moves into an apartment building with his wife." These results show that structural cues (e.g., morphosyntax, closed-class words) constrain lexical meaning to a much larger degree than imagined. Although the abilities of LLMs to make sense of "Jabberwockified" English are clearly superhuman, they are highly relevant to understanding linguistic structure and suggest that efficient language processing either in biological or artificial systems likely benefits from very tight integration between syntax, lexical semantics, and general world knowledge.
- Abstract(参考訳): 大規模な言語モデル (LLM) は、高度に劣化した英語のテキストから意味を回復する驚くべき能力を持っていることを示す。
内容語が無意味な文字列によってランダムに置換されたテキスト(例: g , "At the ghybe of the swuint, we be haiveed to Wourge Phrear-gwurr, who sproles into a ghitch flount with his crurp")は、しばしば原文に近い「e g , "At the beginning of the story, we meet a man, Chow, who move to a apartment building with his wife.」と訳される。
これらの結果は, 構造的手がかり(例えば, モルフォシンタクス, クローズドクラス語)が, 語彙的意味を想像以上にはるかに大きく制限していることを示している。
LLMが「Jabberwockified」英語を理解する能力は明らかに超人的であるが、言語構造を理解することに非常に関連しており、生物学的または人工的なシステムにおける効率的な言語処理は、構文、語彙的意味論、一般世界の知識の非常に緊密な統合から恩恵を受ける可能性が高いことを示唆している。
関連論文リスト
- The unreasonable effectiveness of pattern matching [1.0780189313017459]
大規模言語モデルは、ほとんどまたは全ての内容語がランダムにナンセンス文字列に置き換えられた「ジャバーウォッキー」言語を理解することができる。
LLMが構造パターンから意味を回復する能力は、パターンマッチングの理にかなった効果である。
論文 参考訳(メタデータ) (2026-01-16T16:53:08Z) - False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - On the Semantics of Large Language Models [0.0]
大規模言語モデル(LLM)は、技術を通して人間の言語能力を再現する可能性を実証した。
これらのシステムが言語をどの程度理解しているかについては議論の余地がある。
質問を単語と文のレベルで LLM の意味論に絞り込むことで,この問題を考察する。
論文 参考訳(メタデータ) (2025-07-07T20:02:57Z) - Infusing Prompts with Syntax and Semantics [0.0]
本研究では,多種多様な構文情報や意味情報を大規模言語モデルに直接注入する効果を解析する。
言語分析によって言語モデルが大幅に向上し、これまでの最高のシステムを超えている点が示される。
論文 参考訳(メタデータ) (2024-12-08T23:49:38Z) - Counting the Bugs in ChatGPT's Wugs: A Multilingual Investigation into
the Morphological Capabilities of a Large Language Model [23.60677380868016]
大規模言語モデル (LLM) は近年,人間の言語スキルと比較する上で,目覚ましい言語能力に達している。
そこで本研究では,4言語でChatGPTの形態的能力の厳密な分析を行う。
ChatGPTは、特に英語の目的構築システムでは大幅に性能が低下している。
論文 参考訳(メタデータ) (2023-10-23T17:21:03Z) - A blind spot for large language models: Supradiegetic linguistic information [0.602276990341246]
ChatGPTのような大きな言語モデル(LLM)は、驚くべきことに人間らしく、言語的な流布を実現する。
本稿では,言語学,具体的認知,認知科学,数学,歴史など,いくつかの分野の思想を用いて,この枠組みの詳細について検討する。
これらの概念を用いて,ChatGPT などの LLM がパリンドロム処理に苦慮する理由,シンボルの視覚的特徴,シュメール・キュニフォームの翻訳,整数列の継続について検討する。
論文 参考訳(メタデータ) (2023-06-11T22:15:01Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。