論文の概要: No Such Thing as a General Learner: Language models and their dual optimization
- arxiv url: http://arxiv.org/abs/2408.09544v1
- Date: Sun, 18 Aug 2024 17:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 18:24:47.943857
- Title: No Such Thing as a General Learner: Language models and their dual optimization
- Title(参考訳): 一般学習者としての「なし」:言語モデルとその双対最適化
- Authors: Emmanuel Chemla, Ryan M. Nefdt,
- Abstract要約: 我々は、人間もLLMも、様々な意味で一般の学習者ではないと論じている。
言語に対する人間の認知バイアスの重要性について,LLMのパフォーマンスが人間と類似しているか異同であるかは,重要な議論を軽視するものではないと論じる。
- 参考スコア(独自算出の注目度): 3.2228025627337864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What role can the otherwise successful Large Language Models (LLMs) play in the understanding of human cognition, and in particular in terms of informing language acquisition debates? To contribute to this question, we first argue that neither humans nor LLMs are general learners, in a variety of senses. We make a novel case for how in particular LLMs follow a dual-optimization process: they are optimized during their training (which is typically compared to language acquisition), and modern LLMs have also been selected, through a process akin to natural selection in a species. From this perspective, we argue that the performance of LLMs, whether similar or dissimilar to that of humans, does not weigh easily on important debates about the importance of human cognitive biases for language.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の認知を理解する上で、特に言語習得の議論を伝える上で、どのような役割を果たすのか?
この問題に貢献するために、まず、人間もLLMも、様々な意味で一般の学習者ではないと論じる。
我々は、特にLLMは、訓練中に最適化され(通常は言語習得と比較される)、現代のLLMも、種の自然選択に類似したプロセスによって選択された、という2つの最適化プロセスにどのように従えばよいのか、新しいケースを作る。
この観点から、LLMのパフォーマンスは、人間と類似しているか、異同しているかにかかわらず、言語に対する人間の認知バイアスの重要性についての重要な議論を、容易には見極められないと論じる。
関連論文リスト
- Kallini et al. (2024) do not compare impossible languages with constituency-based ones [0.0]
言語理論の中心的な目的は、「可能な人間言語」という概念を特徴づけることである。
NLPアプリケーションにおける最近の大規模言語モデル(LLM)は、LLMがこの目標を満たす計算機器である可能性を高める。
私は、この矛盾を説明し、根底にある問題を適切にテストする比較を構築するためのいくつかの方法を提案します。
論文 参考訳(メタデータ) (2024-10-16T06:16:30Z) - Large Models of What? Mistaking Engineering Achievements for Human Linguistic Agency [0.11510009152620666]
我々は,Large Language Models(LLM)の言語能力に関する主張は,少なくとも2つの根拠のない仮定に基づいていると主張している。
言語完全性は、自然言語のような明瞭で完全なものが存在すると仮定する。
データ完全性の仮定は、言語がデータによって定量化され、完全にキャプチャされるという信念に依存している。
論文 参考訳(メタデータ) (2024-07-11T18:06:01Z) - A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Large Language Models: The Need for Nuance in Current Debates and a
Pragmatic Perspective on Understanding [1.3654846342364308]
LLM(Large Language Models)は、文法的に正しい、流動的なテキストを生成する能力において、非並列である。
本論文は,LLM能力の批判において再発する3点を批判的に評価する。
LLMにおける現実の理解と意図の問題に関する実践的な視点を概説する。
論文 参考訳(メタデータ) (2023-10-30T15:51:04Z) - Roles of Scaling and Instruction Tuning in Language Perception: Model
vs. Human Attention [58.817405319722596]
本研究は,複数の大規模言語モデル (LLM) を異なる大きさで自己意識的に比較し,言語知覚に対するスケーリングと指導指導の効果を評価する。
その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。
また、現在のLLMは、注目されているネイティブスピーカーよりも、常に非ネイティブに近づき、全てのモデルの準最適言語知覚が示唆されている。
論文 参考訳(メタデータ) (2023-10-29T17:16:40Z) - Spoken Language Intelligence of Large Language Models for Language
Learning [3.5924382852350902]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。
上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。
また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。
異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文 参考訳(メタデータ) (2023-08-28T12:47:41Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。