論文の概要: Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth
- arxiv url: http://arxiv.org/abs/2509.03867v2
- Date: Wed, 10 Sep 2025 14:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 13:12:05.577962
- Title: Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth
- Title(参考訳): Drivel-ology: 深さでナンセンスを解釈するLDM
- Authors: Yang Wang, Chenghao Xiao, Chia-Yi Hsiao, Zi Yan Chang, Chi-Li Chen, Tyler Loakman, Chenghua Lin,
- Abstract要約: ドライブロロジーは「深みのあるナンセンス」によって特徴づけられる言語現象である
我々は、英語、マンダリン、スペイン語、フランス語、日本語、韓国語で、1200以上の精巧にキュレートされ、多様なサンプルのベンチマークデータセットを構築した。
現在の大規模言語モデル (LLM) は,ドライブロジカルテキストの階層的意味論の理解に一貫して失敗している。
- 参考スコア(独自算出の注目度): 21.092167028989632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Drivelology, a unique linguistic phenomenon characterised as "nonsense with depth" - utterances that are syntactically coherent yet pragmatically paradoxical, emotionally loaded, or rhetorically subversive. While such expressions may resemble surface-level nonsense, they encode implicit meaning requiring contextual inference, moral reasoning, or emotional interpretation. We find that current large language models (LLMs), despite excelling at many natural language processing (NLP) tasks, consistently fail to grasp the layered semantics of Drivelological text. To investigate this, we construct a benchmark dataset of over 1,200+ meticulously curated and diverse examples across English, Mandarin, Spanish, French, Japanese, and Korean. Each example underwent careful expert review to verify its Drivelological characteristics, involving multiple rounds of discussion and adjudication to address disagreements. Using this dataset, we evaluate a range of LLMs on classification, generation, and reasoning tasks. Our results reveal clear limitations of LLMs: models often confuse Drivelology with shallow nonsense, produce incoherent justifications, or miss implied rhetorical functions altogether. These findings highlight a deep representational gap in LLMs' pragmatic understanding and challenge the assumption that statistical fluency implies cognitive comprehension. We release our dataset and code to facilitate further research in modelling linguistic depth beyond surface-level coherence.
- Abstract(参考訳): Drivelologyは「深みのあるナンセンス」と特徴付けられるユニークな言語現象であり、構文的に一貫性があるが、現実的にパラドックス的であり、感情的に装填され、あるいは修辞的に逆転する発話である。
このような表現は表面的なナンセンスに似ているかもしれないが、暗黙的な意味を符号化し、文脈的推論、道徳的推論、感情的解釈を必要とする。
現在,多くの自然言語処理(NLP)タスクに長けているが,ドライブロジカルテキストの階層的セマンティクスの把握に一貫して失敗している。
そこで本研究では, 英語, マンダリン, スペイン語, フランス語, 日本語, 韓国語を対象に, 1200以上の精巧にキュレートされた, 多様なサンプルのベンチマークデータセットを構築した。
それぞれの例は、複数の議論と不一致に対処するための判断を含む、ドライブロジカルな特性を検証するために、慎重に専門家のレビューを受けた。
このデータセットを用いて、分類、生成、推論タスクにおける LLM の範囲を評価する。
モデルはしばしばDrivelologyを浅いナンセンスと混同し、不整合正当化を生じさせるか、あるいは完全に含意的な修辞関数を見逃すかのどちらかである。
これらの知見は, LLMの実践的理解における深い表現的ギャップを浮き彫りにし, 統計的拡散が認知的理解を意味するという仮定に挑戦するものである。
我々は,表層コヒーレンスを超える言語深度をモデル化するためのデータセットとコードをリリースする。
関連論文リスト
- Large Language Models for Subjective Language Understanding: A Survey [5.098933455438321]
主観的言語理解(英: subjective language understanding)とは、客観的事実ではなく、個人的感情、意見、あるいは具体的意味を伝達するコンテンツを解釈または生成することを目的とする、自然言語処理タスクの幅広いセットを指す。
ChatGPTやLLaMAといった大規模言語モデル(LLM)の出現により、これらの固有のニュアンスなタスクにどのようにアプローチするかというパラダイムシフトが生まれました。
本研究では,感情分析,感情認識,皮肉検出,ユーモア理解,姿勢検出,比喩解釈,意図検出,美学評価などの主観的言語課題にLLMを適用した最近の進歩を概観する。
論文 参考訳(メタデータ) (2025-08-11T13:10:44Z) - A quantum semantic framework for natural language processing [0.0]
セマンティック・デジェネリズムは、自然言語自体で機能するため、現代のNLPシステムに根本的な制限を課していると論じる。
表現の複雑さが増大するにつれて、そのあいまいさを確実に解決するために必要な文脈情報の量が爆発的に増加することを示す。
我々は、非決定論的性質が非古典的、量子的な論理によって最も適切に記述されるプロセスである、オブザーバ依存の解釈行為によって、意味が動的に実現されると主張する。
論文 参考訳(メタデータ) (2025-06-11T18:00:30Z) - Linguistic Blind Spots of Large Language Models [14.755831733659699]
言語アノテーションタスクにおける最近の大規模言語モデル(LLM)の性能について検討する。
近年の LLM は言語クエリに対処する上で有効性が限られており,言語学的に複雑な入力に苦しむことが多い。
この結果から,LLMの設計・開発における今後の進歩を示唆する知見が得られた。
論文 参考訳(メタデータ) (2025-03-25T01:47:13Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。
結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文 参考訳(メタデータ) (2023-05-01T18:22:10Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。