論文の概要: No Such Thing as a General Learner: Language models and their dual optimization
- arxiv url: http://arxiv.org/abs/2408.09544v1
- Date: Sun, 18 Aug 2024 17:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 18:24:47.943857
- Title: No Such Thing as a General Learner: Language models and their dual optimization
- Title(参考訳): 一般学習者としての「なし」:言語モデルとその双対最適化
- Authors: Emmanuel Chemla, Ryan M. Nefdt,
- Abstract要約: 我々は、人間もLLMも、様々な意味で一般の学習者ではないと論じている。
言語に対する人間の認知バイアスの重要性について,LLMのパフォーマンスが人間と類似しているか異同であるかは,重要な議論を軽視するものではないと論じる。
- 参考スコア(独自算出の注目度): 3.2228025627337864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What role can the otherwise successful Large Language Models (LLMs) play in the understanding of human cognition, and in particular in terms of informing language acquisition debates? To contribute to this question, we first argue that neither humans nor LLMs are general learners, in a variety of senses. We make a novel case for how in particular LLMs follow a dual-optimization process: they are optimized during their training (which is typically compared to language acquisition), and modern LLMs have also been selected, through a process akin to natural selection in a species. From this perspective, we argue that the performance of LLMs, whether similar or dissimilar to that of humans, does not weigh easily on important debates about the importance of human cognitive biases for language.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の認知を理解する上で、特に言語習得の議論を伝える上で、どのような役割を果たすのか?
この問題に貢献するために、まず、人間もLLMも、様々な意味で一般の学習者ではないと論じる。
我々は、特にLLMは、訓練中に最適化され(通常は言語習得と比較される)、現代のLLMも、種の自然選択に類似したプロセスによって選択された、という2つの最適化プロセスにどのように従えばよいのか、新しいケースを作る。
この観点から、LLMのパフォーマンスは、人間と類似しているか、異同しているかにかかわらず、言語に対する人間の認知バイアスの重要性についての重要な議論を、容易には見極められないと論じる。
関連論文リスト
- Can Language Models Learn Typologically Implausible Languages? [62.823015163987996]
人間の言語にまたがる文法的特徴は、人間の学習バイアスに起因する興味深い相関関係を示している。
言語モデル(LM)が言語普遍性におけるドメイン一般学習バイアスの役割をよりよく決定する方法について論じる。
本研究は,英語(頭初期)と日本語(頭最終)の超自然主義的だが反実的なバージョンを用いて,LMを試験する。
論文 参考訳(メタデータ) (2025-02-17T20:40:01Z) - Randomly Sampled Language Reasoning Problems Reveal Limits of LLMs [8.146860674148044]
我々は,データセットリコールのリスクを回避しつつ,モデルの言語理解能力の測定を試みる。
決定論的有限オートマトン(DFA)により認識される言語タスクの多種族をパラメータ化する。
3 状態 DFA の驚くほど単純な設定であっても、LLM は言語認識と合成の両タスクにおいてパラメータ化されていない ngram モデルより劣ることがわかった。
論文 参考訳(メタデータ) (2025-01-06T07:57:51Z) - Kallini et al. (2024) do not compare impossible languages with constituency-based ones [0.0]
言語理論の中心的な目的は、「可能な人間言語」という概念を特徴づけることである。
NLPアプリケーションにおける最近の大規模言語モデル(LLM)は、LLMがこの目標を満たす計算機器である可能性を高める。
私は、この矛盾を説明し、根底にある問題を適切にテストする比較を構築するためのいくつかの方法を提案します。
論文 参考訳(メタデータ) (2024-10-16T06:16:30Z) - Large Models of What? Mistaking Engineering Achievements for Human Linguistic Agency [0.11510009152620666]
我々は,Large Language Models(LLM)の言語能力に関する主張は,少なくとも2つの根拠のない仮定に基づいていると主張している。
言語完全性は、自然言語のような明瞭で完全なものが存在すると仮定する。
データ完全性の仮定は、言語がデータによって定量化され、完全にキャプチャされるという信念に依存している。
論文 参考訳(メタデータ) (2024-07-11T18:06:01Z) - A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Spoken Language Intelligence of Large Language Models for Language Learning [3.1964044595140217]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。
上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。
また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。
異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文 参考訳(メタデータ) (2023-08-28T12:47:41Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。