論文の概要: Are BabyLMs Deaf to Gricean Maxims? A Pragmatic Evaluation of Sample-efficient Language Models
- arxiv url: http://arxiv.org/abs/2510.04764v1
- Date: Mon, 06 Oct 2025 12:38:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.8578
- Title: Are BabyLMs Deaf to Gricean Maxims? A Pragmatic Evaluation of Sample-efficient Language Models
- Title(参考訳): BabyLMsはGricean Maximsに耳を傾けるか? サンプル効率言語モデルの実用的評価
- Authors: Raha Askari, Sina Zarrieß, Özge Alacam, Judith Sieker,
- Abstract要約: 暗黙の意味は人間のコミュニケーションに不可欠なものであり、言語モデルがそれらを識別し解釈できることが不可欠である。
Grice (1975) は共同対話を導く会話の最大値のセットを提案し、話者がリテラル語以外の意味を表現するためにこれらの原則を意図的に違反する可能性があることを指摘した。
10M未満のトークンと100M未満のトークンで事前訓練された言語モデルが、最大暴力的発話と最大アドヒーリングを区別できるかどうかをテストするための新しいベンチマークを導入する。
- 参考スコア(独自算出の注目度): 9.266490178373292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Implicit meanings are integral to human communication, making it essential for language models to be capable of identifying and interpreting them. Grice (1975) proposed a set of conversational maxims that guide cooperative dialogue, noting that speakers may deliberately violate these principles to express meanings beyond literal words, and that listeners, in turn, recognize such violations to draw pragmatic inferences. Building on Surian et al. (1996)'s study of children's sensitivity to violations of Gricean maxims, we introduce a novel benchmark to test whether language models pretrained on less than 10M and less than 100M tokens can distinguish maxim-adhering from maxim-violating utterances. We compare these BabyLMs across five maxims and situate their performance relative to children and a Large Language Model (LLM) pretrained on 3T tokens. We find that overall, models trained on less than 100M tokens outperform those trained on less than 10M, yet fall short of child-level and LLM competence. Our results suggest that modest data increases improve some aspects of pragmatic behavior, leading to finer-grained differentiation between pragmatic dimensions.
- Abstract(参考訳): 暗黙の意味は人間のコミュニケーションに不可欠なものであり、言語モデルがそれらを識別し解釈できることが不可欠である。
Grice (1975) は、話者がリテラル語以外の意味を表現するためにこれらの原則に故意に違反する可能性があること、そしてリスナーがそのような違反を認識して現実的な推論を引き出すこと、など、協調対話を導く会話の最大化を提案した。
Surian et al (1996) の子どものGricean maxims違反に対する感受性に関する研究に基づいて,10M未満で100M未満のトークンで事前訓練された言語モデルが、最大に違反する発話と最大に付着する発話とを区別できるかどうかを検証するための新しいベンチマークを導入する。
本研究では,これらのBabyLMを5つの最大値で比較し,3Tトークンで事前訓練したLarge Language Model (LLM) と比較した。
全体として、100万未満のトークンでトレーニングされたモデルは、10万未満のトークンでトレーニングされたモデルよりも優れていますが、子レベルやLLMの能力には欠けています。
以上の結果から,モデムデータの増加は実用的行動のいくつかの面で改善し,実用的次元の微粒化につながることが示唆された。
関連論文リスト
- LongTail-Swap: benchmarking language models' abilities on rare words [16.946063624357745]
LongTail-Swapはディストリビューションのテールに焦点を当てたベンチマークである。
LMが新しい単語をほとんど露出せずに学習する能力を測定する。
LT-Swapは、許容できない文対と許容できない文対の、事前訓練されたコーパス固有のテストセットである。
論文 参考訳(メタデータ) (2025-10-05T16:17:33Z) - Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [84.03928547166873]
子どもたちは1億ワード未満の入力から言語を習得できる。
大規模な言語モデルはデータ効率がはるかに低く、通常は3~4桁以上のデータを必要とするが、多くの評価において人間ほど性能は高くない。
BabyLM Challengeは、参加者が固定データ予算で言語モデルトレーニングを最適化するために競う共同作業である。
論文 参考訳(メタデータ) (2025-04-10T23:22:43Z) - Towards Data-Efficient Language Models: A Child-Inspired Approach to Language Learning [2.565964707090901]
我々は,従来の大規模言語モデル (LLM) と比較して,データ量が大幅に少ない様々な言語モデル(LM)を訓練する手法を用いている。
そこで本研究では,主に児童向け文字起こしから得られた1000万語からなるキュレートデータセットに基づいて学習したモデルを構築した。
我々は語彙を32,000のトークンに減らし、言語習得の初期段階の子供たちの限られた語彙と整合させる。
論文 参考訳(メタデータ) (2025-03-06T16:57:26Z) - Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [79.03392191805028]
BabyLM Challengeは、人間と計算言語学習者のデータ効率ギャップを埋めるためのコミュニティの取り組みである。
参加者は1億ワード以下の固定言語データ予算で、言語モデルトレーニングを最適化するために競争する。
論文 参考訳(メタデータ) (2024-12-06T16:06:08Z) - Theory of Mind in Large Language Models: Examining Performance of 11
State-of-the-Art models vs. Children Aged 7-10 on Advanced Tests [1.099532646524593]
我々は、心の理論(ToM)に関連する能力に基づいて、11のベースおよび命令調整型大言語モデル(LLM)をテストする。
また, GPT ファミリーの命令調整 LLM は, 他のモデルよりも優れており,子供もよく見られる。
我々は,言語とToMの相互接続進化と開発が,命令チューニングがもたらす意味を説明するのに役立つことを示唆している。
論文 参考訳(メタデータ) (2023-10-31T09:55:07Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Computational Language Acquisition with Theory of Mind [84.2267302901888]
我々は、心の理論(ToM)を備えた言語学習エージェントを構築し、その学習過程への影響を測定する。
重み付けされたToMリスナーコンポーネントを用いた学習話者は,画像参照ゲームの設定において,性能向上につながることがわかった。
論文 参考訳(メタデータ) (2023-03-02T18:59:46Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。