論文の概要: Mission: Impossible Language Models
- arxiv url: http://arxiv.org/abs/2401.06416v1
- Date: Fri, 12 Jan 2024 07:24:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 20:06:52.856585
- Title: Mission: Impossible Language Models
- Title(参考訳): ミッション: 不可能な言語モデル
- Authors: Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald,
Christopher Potts
- Abstract要約: 我々は、複雑さの異なる合成不可能な言語のセットを開発する。
一端には、英語の単語のランダムなシャッフルや不可逆的なシャッフルなど、本質的に不可能な言語がある。
一方、言語は直感的には不可能ではないかもしれないが、言語学ではそう考えられていることが多い。
- 参考スコア(独自算出の注目度): 31.37981197523062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chomsky and others have very directly claimed that large language models
(LLMs) are equally capable of learning languages that are possible and
impossible for humans to learn. However, there is very little published
experimental evidence to support such a claim. Here, we develop a set of
synthetic impossible languages of differing complexity, each designed by
systematically altering English data with unnatural word orders and grammar
rules. These languages lie on an impossibility continuum: at one end are
languages that are inherently impossible, such as random and irreversible
shuffles of English words, and on the other, languages that may not be
intuitively impossible but are often considered so in linguistics, particularly
those with rules based on counting word positions. We report on a wide range of
evaluations to assess the capacity of GPT-2 small models to learn these
uncontroversially impossible languages, and crucially, we perform these
assessments at various stages throughout training to compare the learning
process for each language. Our core finding is that GPT-2 struggles to learn
impossible languages when compared to English as a control, challenging the
core claim. More importantly, we hope our approach opens up a productive line
of inquiry in which different LLM architectures are tested on a variety of
impossible languages in an effort to learn more about how LLMs can be used as
tools for these cognitive and typological investigations.
- Abstract(参考訳): チョムスキーらは、大きな言語モデル(LLM)は人間が学べることが可能で不可能な言語を等しく学習できると主張している。
しかし、そのような主張を支持する実験的な証拠はほとんど発表されていない。
本稿では,英語データを不自然な語順と文法規則で体系的に変更することにより,複雑度が異なる合成不可能言語群を開発する。
英語の単語のランダムなシャッフルや不可逆的なシャッフルなど、本質的に不可能な言語であり、他方では直感的に不可能ではないが、言語学、特に単語の位置の数え方に基づく規則でよく考えられている言語である。
本稿では,GPT-2小モデルの学習能力を評価するための多種多様な評価について報告し,各言語の学習過程を比較するために,これらの評価を訓練期間中,様々な段階で実施する。
我々の中核的な発見は、GPT-2は英語を対照として、不可能な言語を学ぶのに苦労しているということです。
さらに重要なことは、我々のアプローチが、様々なLLMアーキテクチャを様々な不可能な言語でテストし、これらの認知的および類型的調査のツールとしてどのようにLLMを利用できるかを学ぶために、生産的な調査ラインを開くことを願っている。
関連論文リスト
- Comparative Study of Multilingual Idioms and Similes in Large Language Models [4.581124233698535]
本研究は, チェーン・オブ・ソート, 少数ショット, 英語翻訳プロンプトなど, 迅速なエンジニアリング戦略の有効性について検討する。
これらのデータセットの言語をペルシア語にも拡張し、2つの新しい評価セットを構築します。
本研究により, 迅速な工学手法は一般的に有効であるが, その成功は図形型, 言語, モデルによって異なることがわかった。
論文 参考訳(メタデータ) (2024-10-21T19:40:05Z) - Kallini et al. (2024) do not compare impossible languages with constituency-based ones [0.0]
言語理論の中心的な目的は、「可能な人間言語」という概念を特徴づけることである。
NLPアプリケーションにおける最近の大規模言語モデル(LLM)は、LLMがこの目標を満たす計算機器である可能性を高める。
私は、この矛盾を説明し、根底にある問題を適切にテストする比較を構築するためのいくつかの方法を提案します。
論文 参考訳(メタデータ) (2024-10-16T06:16:30Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - A Computational Model for the Assessment of Mutual Intelligibility Among
Closely Related Languages [1.5773159234875098]
密接に関連する言語は、ある言語の話者が積極的に学習することなく他の言語の話者を理解することができる言語類似性を示す。
相互の知性は程度によって異なり、典型的には精神言語実験でテストされる。
本稿では,人間による言語学習の認知過程を近似するために,線形識別学習システムを用いたコンピュータ支援手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T11:32:13Z) - Counterfactually Probing Language Identity in Multilingual Models [15.260518230218414]
多言語モデルの内部構造を探索するために, 対実的探索法AlterRepを用いる。
言語 X のテンプレートを考えると、言語 Y が言語 Y の単語の確率を体系的に増加させることが分かる。
論文 参考訳(メタデータ) (2023-10-29T01:21:36Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。