論文の概要: Tasks That Language Models Don't Learn
- arxiv url: http://arxiv.org/abs/2402.11349v1
- Date: Sat, 17 Feb 2024 17:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:46:40.913194
- Title: Tasks That Language Models Don't Learn
- Title(参考訳): 言語モデルが学習しないタスク
- Authors: Bruce W. Lee and JaeHyuk Lim
- Abstract要約: 本稿では,H-TESTと呼ばれる一連の課題を通して,言語の視覚的聴覚特性を実証的に調査する。
このベンチマークは、知覚経験を自然に統合する人間の言語理解と、LLMの知覚不足処理能力の基本的なギャップを浮き彫りにする。
- 参考スコア(独自算出の注目度): 0.41699156597945664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We argue that there are certain properties of language that our current large
language models (LLMs) don't learn. We present an empirical investigation of
visual-auditory properties of language through a series of tasks, termed
H-TEST. This benchmark highlights a fundamental gap between human linguistic
comprehension, which naturally integrates sensory experiences, and the
sensory-deprived processing capabilities of LLMs. In support of our hypothesis,
1. deliberate reasoning (Chain-of-Thought), 2. few-shot examples, or 3.
stronger LLM from the same model family (LLaMA 2 13B -> LLaMA 2 70B) do not
trivially bring improvements in H-TEST performance. Therefore, we make a
particular connection to the philosophical case of Mary, who learns about the
world in a sensory-deprived environment (Jackson, 1986). Our experiments show
that some of the strongest proprietary LLMs stay near random chance baseline
accuracy of 50%, highlighting the limitations of knowledge acquired in the
absence of sensory experience.
- Abstract(参考訳): 私たちは、現在の大きな言語モデル(LLM)が学ばない言語の性質があると主張している。
本稿では,H-TESTと呼ばれる一連の課題を通して,言語視覚特性の実証的研究を行う。
このベンチマークは、知覚経験を自然に統合する人間の言語理解と、LLMの知覚不足処理能力との根本的なギャップを強調している。
私たちの仮説を支持して
一 意図的な推論(思考の連鎖)
2. 少数の例、または
3. 同じモデルファミリー(LLaMA 2 13B -> LLaMA 2 70B)の強力なLLMでは,H-TEST性能は向上しない。
そこで我々は,感覚を欠いた環境の中で世界について学ぶメアリーの哲学的ケースに,特に関連付ける(Jackson, 1986)。
実験の結果,最強プロプライエタリなLSMのいくつかは,確率ベースライン精度50%に近づき,感覚経験の欠如による知識の限界を浮き彫りにした。
関連論文リスト
- One Mind, Many Tongues: A Deep Dive into Language-Agnostic Knowledge Neurons in Large Language Models [19.58983929459173]
大規模言語モデル(LLM)は大規模コーパスでの自己教師付き事前学習を通じて、膨大な量の事実知識を学習してきた。
LLMはまた、学習した知識を複数の言語で表現できる優れた多言語機能を示した。
論文 参考訳(メタデータ) (2024-11-26T13:03:49Z) - Large Models of What? Mistaking Engineering Achievements for Human Linguistic Agency [0.11510009152620666]
我々は,Large Language Models(LLM)の言語能力に関する主張は,少なくとも2つの根拠のない仮定に基づいていると主張している。
言語完全性は、自然言語のような明瞭で完全なものが存在すると仮定する。
データ完全性の仮定は、言語がデータによって定量化され、完全にキャプチャされるという信念に依存している。
論文 参考訳(メタデータ) (2024-07-11T18:06:01Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Can large language models understand uncommon meanings of common words? [30.527834781076546]
大規模言語モデル(LLM)は、様々な自然言語理解(NLU)タスクに大きく進歩している。
しかし、LLMがオウムなのか、本当の意味で世界を理解するのかは、広く認知されている試験機構が欠如している。
本稿では,新しい評価指標を用いたレキシカルセマンティックデータセットの革新的構築について述べる。
論文 参考訳(メタデータ) (2024-05-09T12:58:22Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - POSQA: Probe the World Models of LLMs with Size Comparisons [38.30479784257936]
身体的言語理解は、言語理解が単に脳の精神的処理の問題ではないことを強調している。
LLM(Large Language Models)の爆発的成長と、私たちの日常生活にすでに広く存在していることから、現実の理解を検証する必要性が高まっている。
論文 参考訳(メタデータ) (2023-10-20T10:05:01Z) - Spoken Language Intelligence of Large Language Models for Language
Learning [3.5924382852350902]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。
上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。
また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。
異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文 参考訳(メタデータ) (2023-08-28T12:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。