論文の概要: You Prefer This One, I Prefer Yours: Using Reference Words is Harder Than Vocabulary Words for Humans and Multimodal Language Models
- arxiv url: http://arxiv.org/abs/2506.00065v1
- Date: Thu, 29 May 2025 13:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.180575
- Title: You Prefer This One, I Prefer Yours: Using Reference Words is Harder Than Vocabulary Words for Humans and Multimodal Language Models
- Title(参考訳): 参考語の使用は、人間やマルチモーダル言語モデルのための語彙語よりも難しい
- Authors: Dota Tianai Dong, Yifan Luo, Po-Ya Angela Wang, Asli Ozyurek, Paula Rubio-Fernandez,
- Abstract要約: 本研究は,3語クラスの人的・参照的使用と,語彙,所有代名詞,実証代名詞といった認知的要求の増大を比較した。
分析の結果,これらの困難は視点的思考と空間的推論の限界に起因することが明らかとなった。
これらの発見は、プラグマティクスと社会的認知を必要とする形態を作り出すことは、現在のNLPシステムにおいて明らかな課題であることを示す理論的および実証的な証拠を提供する。
- 参考スコア(独自算出の注目度): 2.222626706903284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal language models (MLMs) increasingly communicate in human-like ways, yet their ability to use reference words remains largely overlooked despite their ubiquity in everyday communication. Our study addresses this gap by comparing human and MLM use of three word classes with increasing cognitive demands: vocabulary words, possessive pronouns (`mine' vs `yours'), and demonstrative pronouns (`this one' vs `that one'). Evaluating seven state-of-the-art MLMs against human participants, we observe a clear difficulty hierarchy: while MLMs approach human-level performance on the vocabulary task, they show substantial deficits with possessives and demonstratives. Our analysis reveals these difficulties stem from limitations in perspective-taking and spatial reasoning. Although prompt engineering improved model performance on possessive use, demonstrative use remained well below human-level competence. These findings provide theoretical and empirical evidence that producing grammatical forms requiring pragmatics and social cognition remains a clear challenge in current NLP systems.
- Abstract(参考訳): マルチモーダル言語モデル(MLM)は、人間のような方法でコミュニケーションする傾向にあるが、日常的なコミュニケーションにおいて多用されているにもかかわらず、参照語を使用する能力はほとんど見過ごされ続けている。
本研究は, 語彙, 所有代名詞(「mine」対「Yours」) および実証代名詞(「 this one」対「the one」) の3つの単語クラスの使用と認知的欲求の増大を比較して, このギャップを解消するものである。
ヒトに対して7つの最先端のMLMを評価することで,MLMが語彙タスクにおいて人間レベルのパフォーマンスにアプローチする一方で,保持者や実証者による実質的な欠陥を示すという,明確な難易度階層を観察する。
分析の結果,これらの困難は視点的思考と空間的推論の限界に起因することが明らかとなった。
素早いエンジニアリングでモデルの性能は向上したが、実証的な使用は人間レベルの能力を大きく下回った。
これらの知見は、現在のNLPシステムにおいて、実用性や社会的認知を必要とする文法形式を作り出すことは明らかな課題である、という理論的および実証的な証拠を提供する。
関連論文リスト
- XToM: Exploring the Multilingual Theory of Mind for Large Language Models [57.9821865189077]
LLMにおける既存の心の理論の評価は英語に限られている。
XToMは5言語にまたがってToMを評価する,厳格に検証された多言語ベンチマークである。
以上の結果から,LLMが言語的文脈にまたがって人間的なメンタライゼーションを再現する能力に限界があることが判明した。
論文 参考訳(メタデータ) (2025-06-03T05:23:25Z) - Beyond Keywords: Evaluating Large Language Model Classification of Nuanced Ableism [2.0435202333125977]
大規模言語モデル(LLM)は、r'esumのスクリーニングやコンテンツモデレーションといった意思決定タスクにますます使われています。
自閉症者を対象としたニュアンス能力の同定のための4つのLSMの能力について検討した。
以上の結果から, LLMは自閉症関連言語を識別できるが, 有害あるいは攻撃的な意味を欠くことが多いことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-26T20:01:44Z) - Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,様々なベンチマークにおいて最先端MLLMを体系的に評価する。
本稿では,MLLMの脆弱性を否定的議論に対して評価するために設計された,最初のベンチマークであるGaslightingBenchを紹介する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - Exploring Automated Keyword Mnemonics Generation with Large Language Models via Overgenerate-and-Rank [4.383205675898942]
キーワード・ムネモニクス(英: Keywords mnemonics)は、単語を単語のキューを通じて記憶可能な関連性を通じて記憶する技法である。
そこで本稿では,大規模言語モデルに言語的手がかりを生成させる手法として,新しいオーバージェネレーション・アンド・ランク法を提案する。
以上の結果から, LLM生成のメネモニクスは, 画像性, コヒーレンス, 知覚的有用性の観点から, 人間生成のミネモニクスに匹敵するものであることが示唆された。
論文 参考訳(メタデータ) (2024-09-21T00:00:18Z) - Can large language models understand uncommon meanings of common words? [30.527834781076546]
大規模言語モデル(LLM)は、様々な自然言語理解(NLU)タスクに大きく進歩している。
しかし、LLMがオウムなのか、本当の意味で世界を理解するのかは、広く認知されている試験機構が欠如している。
本稿では,新しい評価指標を用いたレキシカルセマンティックデータセットの革新的構築について述べる。
論文 参考訳(メタデータ) (2024-05-09T12:58:22Z) - Large Language Models are as persuasive as humans, but how? About the cognitive effort and moral-emotional language of LLM arguments [0.0]
大型言語モデル(LLM)はすでに人間と同じくらい説得力がある。
本稿では, LLMの説得戦略について, 人為的議論と比較し検討する。
論文 参考訳(メタデータ) (2024-04-14T19:01:20Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Dissociating language and thought in large language models [52.39241645471213]
大規模言語モデル(LLM)は、人間の言語を習得する上で、今までに最も近いモデルである。
我々は、この区別を人間の神経科学に根ざし、形式的、機能的な能力は異なる神経機構に依存していることを示した。
LLMは形式的能力は驚くほど優れているが、機能的能力のタスクにおける性能はいまだに不明瞭である。
論文 参考訳(メタデータ) (2023-01-16T22:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。