Fugu-MT 論文翻訳(概要): Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

論文の概要: Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

arxiv url: http://arxiv.org/abs/2509.03867v1
Date: Thu, 04 Sep 2025 03:58:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-05 20:21:10.044014
Title: Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth
Title（参考訳）: Drivel-ology: 深さでナンセンスを解釈するLDM
Authors: Yang Wang, Chenghao Xiao, Chia-Yi Hsiao, Zi Yan Chang, Chi-Li Chen, Tyler Loakman, Chenghua Lin,
Abstract要約: ドライブロロジーは「深みのあるナンセンス」によって特徴づけられる言語現象である現在の大規模言語モデルでは,Drivelological テキストの階層的意味を把握できないことがわかった。
参考スコア（独自算出の注目度）: 21.092167028989632
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Drivelology, a unique linguistic phenomenon characterised as "nonsense with depth", utterances that are syntactically coherent yet pragmatically paradoxical, emotionally loaded, or rhetorically subversive. While such expressions may resemble surface-level nonsense, they encode implicit meaning requiring contextual inference, moral reasoning, or emotional interpretation. We find that current large language models (LLMs), despite excelling at many natural language processing (NLP) tasks, consistently fail to grasp the layered semantics of Drivelological text. To investigate this, we construct a small but diverse benchmark dataset of over 1,200 meticulously curated examples, with select instances in English, Mandarin, Spanish, French, Japanese, and Korean. Annotation was especially challenging: each of the examples required careful expert review to verify that it truly reflected Drivelological characteristics. The process involved multiple rounds of discussion and adjudication to address disagreements, highlighting the subtle and subjective nature of the Drivelology. We evaluate a range of LLMs on classification, generation, and reasoning tasks. Our results reveal clear limitations of LLMs: models often confuse Drivelology with shallow nonsense, produce incoherent justifications, or miss the implied rhetorical function altogether. These findings highlight a deeper representational gap in LLMs' pragmatic understanding and challenge the assumption that statistical fluency implies cognitive comprehension. We release our dataset and code to facilitate further research in modelling linguistic depth beyond surface-level coherence.
Abstract（参考訳）: 本稿では,「深みのないナンセンス」と特徴付けられる独特の言語現象である「ドライブロロジー」を紹介する。このような表現は表面的なナンセンスに似ているかもしれないが、暗黙的な意味を符号化し、文脈的推論、道徳的推論、感情的解釈を必要とする。現在,多くの自然言語処理(NLP)タスクに長けているが,ドライブロジカルテキストの階層的セマンティクスの把握に一貫して失敗している。そこで本研究では, 英語, マンダリン, スペイン語, フランス語, 日本語, 韓国語を選抜して, 1200以上の厳密にキュレートされた小さなベンチマークデータセットを構築した。それぞれの例は、Drivelologicalの特徴を本当に反映していることを示すために、慎重に専門家のレビューを必要としました。このプロセスには、不一致に対処する複数の議論と偏見が含まれ、ドライブロロジーの微妙で主観的な性質を強調した。分類・生成・推論タスクにおける LLM の範囲を評価する。モデルはしばしばDrivelologyを浅いナンセンスと混同し、不整合正当化を生じさせるか、あるいはインプリートな修辞関数を見逃すかのどちらかである。これらの知見は, LLMの実践的理解におけるより深い表現的ギャップを浮き彫りにし, 統計的拡散が認知的理解を意味するという仮定に挑戦するものである。我々は,表層コヒーレンスを超える言語深度をモデル化するためのデータセットとコードをリリースする。

関連論文リスト

Large Language Models for Subjective Language Understanding: A Survey [5.098933455438321]
主観的言語理解(英: subjective language understanding)とは、客観的事実ではなく、個人的感情、意見、あるいは具体的意味を伝達するコンテンツを解釈または生成することを目的とする、自然言語処理タスクの幅広いセットを指す。 ChatGPTやLLaMAといった大規模言語モデル(LLM)の出現により、これらの固有のニュアンスなタスクにどのようにアプローチするかというパラダイムシフトが生まれました。本研究では,感情分析,感情認識,皮肉検出,ユーモア理解,姿勢検出,比喩解釈,意図検出,美学評価などの主観的言語課題にLLMを適用した最近の進歩を概観する。
論文参考訳（メタデータ） (2025-08-11T13:10:44Z)
A quantum semantic framework for natural language processing [0.0]
セマンティック・デジェネリズムは、自然言語自体で機能するため、現代のNLPシステムに根本的な制限を課していると論じる。表現の複雑さが増大するにつれて、そのあいまいさを確実に解決するために必要な文脈情報の量が爆発的に増加することを示す。我々は、非決定論的性質が非古典的、量子的な論理によって最も適切に記述されるプロセスである、オブザーバ依存の解釈行為によって、意味が動的に実現されると主張する。
論文参考訳（メタデータ） (2025-06-11T18:00:30Z)
Linguistic Blind Spots of Large Language Models [14.755831733659699]
言語アノテーションタスクにおける最近の大規模言語モデル(LLM)の性能について検討する。近年の LLM は言語クエリに対処する上で有効性が限られており,言語学的に複雑な入力に苦しむことが多い。この結果から,LLMの設計・開発における今後の進歩を示唆する知見が得られた。
論文参考訳（メタデータ） (2025-03-25T01:47:13Z)
Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文参考訳（メタデータ） (2024-04-29T17:58:36Z)
Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文参考訳（メタデータ） (2024-03-03T13:14:47Z)
Large Language Models are In-Context Semantic Reasoners rather than Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文参考訳（メタデータ） (2023-05-24T07:33:34Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。 LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文参考訳（メタデータ） (2023-05-01T18:22:10Z)
The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。 2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文参考訳（メタデータ） (2022-10-26T19:04:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。