論文の概要: Fundamental Principles of Linguistic Structure are Not Represented by o3
- arxiv url: http://arxiv.org/abs/2502.10934v1
- Date: Sat, 15 Feb 2025 23:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:13:07.085632
- Title: Fundamental Principles of Linguistic Structure are Not Represented by o3
- Title(参考訳): 言語構造の基本原理はo3で表現されない
- Authors: Elliot Murphy, Evelina Leivada, Vittoria Dentella, Fritz Gunther, Gary Marcus,
- Abstract要約: O3モデルは基本的なフレーズ構造規則を一般化できない。
正しく評価し、アクセプタビリティのダイナミクスを説明するのに失敗する。
受け入れられないセマンティクスを生成する命令と受け入れられない構文出力を生成する命令を区別できない。
- 参考スコア(独自算出の注目度): 3.335047764053173
- License:
- Abstract: A core component of a successful artificial general intelligence would be the rapid creation and manipulation of grounded compositional abstractions and the demonstration of expertise in the family of recursive hierarchical syntactic objects necessary for the creative use of human language. We evaluated the recently released o3 model (OpenAI; o3-mini-high) and discovered that while it succeeds on some basic linguistic tests relying on linear, surface statistics (e.g., the Strawberry Test), it fails to generalize basic phrase structure rules; it fails with comparative sentences involving semantically illegal cardinality comparisons ('Escher sentences'); its fails to correctly rate and explain acceptability dynamics; and it fails to distinguish between instructions to generate unacceptable semantic vs. unacceptable syntactic outputs. When tasked with generating simple violations of grammatical rules, it is seemingly incapable of representing multiple parses to evaluate against various possible semantic interpretations. In stark contrast to many recent claims that artificial language models are on the verge of replacing the field of linguistics, our results suggest not only that deep learning is hitting a wall with respect to compositionality (Marcus 2022), but that it is hitting [a [stubbornly [resilient wall]]] that cannot readily be surmounted to reach human-like compositional reasoning simply through more compute.
- Abstract(参考訳): 人工知能の成功の核となる要素は、接地された構成抽象の素早い作成と操作、そして人間の言語の創造的利用に必要な再帰的階層的構文オブジェクトの族における専門知識の実証である。
我々は最近リリースされたo3モデル(OpenAI; o3-mini-high)を評価し、線形、表面統計学(例えばStrawberry Test)に頼っていくつかの基本言語テストに成功しているが、基本句構造規則を一般化できず、意味論的に違法な正当性比較を含む比較文("Escher sentences")に失敗し、受容可能性のダイナミクスを正しく評価・説明できなかったこと、そして、受容不可能な意味的出力を生成する命令と許容不可能な構文的出力を生成する命令の区別に失敗したことを発見した。
文法規則の単純な違反が発生すると、様々な意味論的解釈に対して評価するために複数のパースを表現できないように思われる。
人工言語モデルが言語学の分野に取って代わろうとしているという最近の主張とは対照的に,我々の研究結果は,深層学習が構成性に関して壁にぶつかっていることを示唆している(Marcus 2022)。
関連論文リスト
- SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding [52.98133831401225]
時間的グラウンドディング(英: Temporal grounding、ビデオモーメント検索(英語版))は、所定のクエリ文に対応するビデオセグメントを特定することを目的としている。
本稿では, GPT-3.5-Turbo を用いた負のクエリ構築のための大規模言語モデル駆動手法を提案する。
本稿では,ビデオと階層的負のクエリ間の多粒度意味的関係を学習するモデルを提案する。
論文 参考訳(メタデータ) (2024-07-06T16:08:17Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Idiomatic Expression Identification using Semantic Compatibility [8.355785779504869]
文が慣用的表現を持っているかどうかを検知し,それを局所化するタスクについて検討する。
本稿では,これらの表現を識別するためのアテンションフロー機構を備えた多段階ニューラルアーキテクチャを提案する。
このモデルの健全な特徴は、トレーニング中に見えないイディオムを識別できることであり、競争ベースラインよりも1.4%から30.8%向上している。
論文 参考訳(メタデータ) (2021-10-19T15:44:28Z) - Pairwise Supervised Contrastive Learning of Sentence Representations [20.822509446824125]
PairSupConは、セマンティックエンターメントと矛盾理解を高レベルのカテゴリ概念エンコーディングにブリッジすることを目的としている。
異なる粒度の文意味論の理解に関わる様々な下流タスクで評価する。
論文 参考訳(メタデータ) (2021-09-12T04:12:16Z) - Neural Abstructions: Abstractions that Support Construction for Grounded
Language Learning [69.1137074774244]
言語の相互作用を効果的に活用するには、言語基底に対する2つの最も一般的なアプローチの制限に対処する必要がある。
本稿では,ラベル条件付き生成モデルの推論手順に対する制約のセットであるニューラル・アブストラクションの考え方を紹介する。
この手法により,マインクラフトにおけるオープンエンドハウスタスクのセマンティックな変更をユーザ人口が構築できることが示される。
論文 参考訳(メタデータ) (2021-07-20T07:01:15Z) - Provable Limitations of Acquiring Meaning from Ungrounded Form: What
will Future Language Models Understand? [87.20342701232869]
未知のシステムが意味を習得する能力について検討する。
アサーションによってシステムが等価性のような意味関係を保存する表現をエミュレートできるかどうか検討する。
言語内のすべての表現が参照的に透明であれば,アサーションによってセマンティックエミュレーションが可能になる。
しかし、言語が変数バインディングのような非透過的なパターンを使用する場合、エミュレーションは計算不能な問題になる可能性がある。
論文 参考訳(メタデータ) (2021-04-22T01:00:17Z) - Multi-sense embeddings through a word sense disambiguation process [2.2344764434954256]
最も適した感覚。
(MSSA)は、その文脈の意味的効果を考慮して、それぞれの単語をその特定の感覚で曖昧にし、注釈する。
我々は,単語類似性タスクの6つの異なるベンチマークでアプローチを検証し,そのアプローチが最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-01-21T16:22:34Z) - Reevaluating Adversarial Examples in Natural Language [20.14869834829091]
我々は2つの最先端の同義語代用攻撃の出力を分析した。
それらの摂動はしばしば意味論を保存せず、38%が文法的誤りを導入している。
セマンティクスと文法性を改善するために制約が調整されたことにより、攻撃の成功率は70パーセント以上低下する。
論文 参考訳(メタデータ) (2020-04-25T03:09:48Z) - A Benchmark for Systematic Generalization in Grounded Language
Understanding [61.432407738682635]
人間は慣れ親しんだ部分から成り立つ不慣れな状況を記述する表現を容易に解釈する。
対照的に、現代のニューラルネットワークは、新しい構成を理解するのに苦労している。
位置言語理解における合成一般化を評価するための新しいベンチマークであるgSCANを導入する。
論文 参考訳(メタデータ) (2020-03-11T08:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。