論文の概要: Tasks That Language Models Don't Learn
- arxiv url: http://arxiv.org/abs/2402.11349v1
- Date: Sat, 17 Feb 2024 17:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:46:40.913194
- Title: Tasks That Language Models Don't Learn
- Title(参考訳): 言語モデルが学習しないタスク
- Authors: Bruce W. Lee and JaeHyuk Lim
- Abstract要約: 本稿では,H-TESTと呼ばれる一連の課題を通して,言語の視覚的聴覚特性を実証的に調査する。
このベンチマークは、知覚経験を自然に統合する人間の言語理解と、LLMの知覚不足処理能力の基本的なギャップを浮き彫りにする。
- 参考スコア(独自算出の注目度): 0.41699156597945664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We argue that there are certain properties of language that our current large
language models (LLMs) don't learn. We present an empirical investigation of
visual-auditory properties of language through a series of tasks, termed
H-TEST. This benchmark highlights a fundamental gap between human linguistic
comprehension, which naturally integrates sensory experiences, and the
sensory-deprived processing capabilities of LLMs. In support of our hypothesis,
1. deliberate reasoning (Chain-of-Thought), 2. few-shot examples, or 3.
stronger LLM from the same model family (LLaMA 2 13B -> LLaMA 2 70B) do not
trivially bring improvements in H-TEST performance. Therefore, we make a
particular connection to the philosophical case of Mary, who learns about the
world in a sensory-deprived environment (Jackson, 1986). Our experiments show
that some of the strongest proprietary LLMs stay near random chance baseline
accuracy of 50%, highlighting the limitations of knowledge acquired in the
absence of sensory experience.
- Abstract(参考訳): 私たちは、現在の大きな言語モデル(LLM)が学ばない言語の性質があると主張している。
本稿では,H-TESTと呼ばれる一連の課題を通して,言語視覚特性の実証的研究を行う。
このベンチマークは、知覚経験を自然に統合する人間の言語理解と、LLMの知覚不足処理能力との根本的なギャップを強調している。
私たちの仮説を支持して
一 意図的な推論(思考の連鎖)
2. 少数の例、または
3. 同じモデルファミリー(LLaMA 2 13B -> LLaMA 2 70B)の強力なLLMでは,H-TEST性能は向上しない。
そこで我々は,感覚を欠いた環境の中で世界について学ぶメアリーの哲学的ケースに,特に関連付ける(Jackson, 1986)。
実験の結果,最強プロプライエタリなLSMのいくつかは,確率ベースライン精度50%に近づき,感覚経験の欠如による知識の限界を浮き彫りにした。
関連論文リスト
- Can Language Models Learn Typologically Implausible Languages? [62.823015163987996]
人間の言語にまたがる文法的特徴は、人間の学習バイアスに起因する興味深い相関関係を示している。
言語モデル(LM)が言語普遍性におけるドメイン一般学習バイアスの役割をよりよく決定する方法について論じる。
本研究は,英語(頭初期)と日本語(頭最終)の超自然主義的だが反実的なバージョンを用いて,LMを試験する。
論文 参考訳(メタデータ) (2025-02-17T20:40:01Z) - Randomly Sampled Language Reasoning Problems Reveal Limits of LLMs [8.146860674148044]
我々は,データセットリコールのリスクを回避しつつ,モデルの言語理解能力の測定を試みる。
決定論的有限オートマトン(DFA)により認識される言語タスクの多種族をパラメータ化する。
3 状態 DFA の驚くほど単純な設定であっても、LLM は言語認識と合成の両タスクにおいてパラメータ化されていない ngram モデルより劣ることがわかった。
論文 参考訳(メタデータ) (2025-01-06T07:57:51Z) - One Mind, Many Tongues: A Deep Dive into Language-Agnostic Knowledge Neurons in Large Language Models [19.58983929459173]
大規模言語モデル(LLM)は大規模コーパスでの自己教師付き事前学習を通じて、膨大な量の事実知識を学習してきた。
LLMはまた、学習した知識を複数の言語で表現できる優れた多言語機能を示した。
論文 参考訳(メタデータ) (2024-11-26T13:03:49Z) - Large Models of What? Mistaking Engineering Achievements for Human Linguistic Agency [0.11510009152620666]
我々は,Large Language Models(LLM)の言語能力に関する主張は,少なくとも2つの根拠のない仮定に基づいていると主張している。
言語完全性は、自然言語のような明瞭で完全なものが存在すると仮定する。
データ完全性の仮定は、言語がデータによって定量化され、完全にキャプチャされるという信念に依存している。
論文 参考訳(メタデータ) (2024-07-11T18:06:01Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Divergences between Language Models and Human Brains [59.100552839650774]
我々は,人間と機械語処理の相違点を体系的に探求する。
我々は、LMがうまく捉えられない2つの領域、社会的/感情的知性と身体的常識を識別する。
以上の結果から,これらの領域における微調整LMは,ヒト脳反応との整合性を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-11-15T19:02:40Z) - POSQA: Probe the World Models of LLMs with Size Comparisons [38.30479784257936]
身体的言語理解は、言語理解が単に脳の精神的処理の問題ではないことを強調している。
LLM(Large Language Models)の爆発的成長と、私たちの日常生活にすでに広く存在していることから、現実の理解を検証する必要性が高まっている。
論文 参考訳(メタデータ) (2023-10-20T10:05:01Z) - Spoken Language Intelligence of Large Language Models for Language Learning [3.1964044595140217]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。
上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。
また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。
異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文 参考訳(メタデータ) (2023-08-28T12:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。