論文の概要: Can LLMs interpret figurative language as humans do?: surface-level vs representational similarity
- arxiv url: http://arxiv.org/abs/2601.09041v1
- Date: Wed, 14 Jan 2026 00:13:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.201826
- Title: Can LLMs interpret figurative language as humans do?: surface-level vs representational similarity
- Title(参考訳): LLMは図形言語を人間として解釈できるか?-表面レベルと表現的類似性
- Authors: Samhita Bollepally, Aurora Sloman-Moll, Takashi Yamauchi,
- Abstract要約: 人的参加者と4つの命令調整 LLM は、6つの言語的特徴を表す240の対話に基づく文を評価した。
その結果、人間とLLMは表面レベルでは人間と一致していたが、表現レベルでは大きなばらつきが見られた。
GPT-4は人間の表現パターンを最もよく近似し、全てのモデルは文脈に依存し、社会的な表現に苦しむ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models generate judgments that resemble those of humans. Yet the extent to which these models align with human judgments in interpreting figurative and socially grounded language remains uncertain. To investigate this, human participants and four instruction-tuned LLMs of different sizes (GPT-4, Gemma-2-9B, Llama-3.2, and Mistral-7B) rated 240 dialogue-based sentences representing six linguistic traits: conventionality, sarcasm, funny, emotional, idiomacy, and slang. Each of the 240 sentences was paired with 40 interpretive questions, and both humans and LLMs rated these sentences on a 10-point Likert scale. Results indicated that humans and LLMs aligned at the surface level with humans, but diverged significantly at the representational level, especially in interpreting figurative sentences involving idioms and Gen Z slang. GPT-4 most closely approximates human representational patterns, while all models struggle with context-dependent and socio-pragmatic expressions like sarcasm, slang, and idiomacy.
- Abstract(参考訳): 大きな言語モデルは人間のものに似た判断を生成する。
しかし、これらのモデルが、具体的で社会的に根ざした言語を解釈する際の人間の判断とどの程度一致しているかは、いまだに不明である。
これを調べるために、ヒトの参加者と異なる大きさ(GPT-4, Gemma-2-9B, Llama-3.2, Mistral-7B)の4つの命令調整LDMは、標準性、サルカズム、笑い、感情、慣用性、スラングの6つの言語的特徴を表す240の対話ベースの文を評価した。
240の文章はそれぞれ40の解釈的質問と組み合わせられ、人間もLLMもこれらの文章を10ポイントの「いいね」尺度で評価した。
以上の結果から,ヒトとLDMは表象レベルでは人間と一致しているが,表象レベルでは顕著に分散し,特にイディオムやジーンZスラングを含む図形文の解釈において顕著であった。
GPT-4は人間の表現パターンを最もよく近似し、全てのモデルはサルカズム、スラング、慣用性といった文脈に依存し、社会的な表現に苦しむ。
関連論文リスト
- Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - Language in Vivo vs. in Silico: Size Matters but Larger Language Models Still Do Not Comprehend Language on a Par with Humans Due to Impenetrable Semantic Reference [1.8434042562191815]
本研究では,人間とモデルの違いがモデルサイズに寄与するかどうかを判断する上で,モデルスケーリングが果たす役割について検討する。
アナフォラ, 中心埋め込み, 比較, 負極性を含む文法判断タスクにおいて, 3つの大言語モデル(LLM)を検証した。
結果,ChatGPT-4の精度は,ChatGPT-4の精度が76%に対して80%であったのに対し,ChatGPT-4の精度は1つのタスク条件,すなわち文法文でのみ優れていた。
論文 参考訳(メタデータ) (2024-04-23T10:09:46Z) - Divergences between Language Models and Human Brains [59.100552839650774]
我々は,人間と機械語処理の相違点を体系的に探求する。
我々は、LMがうまく捉えられない2つの領域、社会的/感情的知性と身体的常識を識別する。
以上の結果から,これらの領域における微調整LMは,ヒト脳反応との整合性を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-11-15T19:02:40Z) - Large Language Model Displays Emergent Ability to Interpret Novel
Literary Metaphors [1.2277343096128712]
大規模言語モデル(LLM)は、人工知能(AI)の汎用形式にハイレベルな人間の能力が出現するかどうかという議論を巻き起こしている。
ここでは,芸術大言語モデルの現状である GPT4 を用いて,新しい文芸メタファーの自然言語解釈を行う能力を評価する。
人間の裁判官は、AIモデルが関与しているという事実に盲目であり、GPT4が生成したメタファの解釈を、大学生のグループによって提供されるものよりも優れていると評価した。
論文 参考訳(メタデータ) (2023-08-03T01:46:27Z) - Speaking Multiple Languages Affects the Moral Bias of Language Models [70.94372902010232]
事前訓練された多言語言語モデル(PMLM)は、複数の言語からのデータや言語間転送を扱う際に一般的に用いられる。
モデルは英語から道徳的規範を捉え、他の言語に強制するか?
我々の実験は、事実、PMLMが道徳的バイアスを符号化していることを示しているが、これらは必ずしも人間の意見の文化的相違や共通点に対応しているわけではない。
論文 参考訳(メタデータ) (2022-11-14T20:08:54Z) - Are Representations Built from the Ground Up? An Empirical Examination
of Local Composition in Language Models [91.3755431537592]
構成的・非構成的句を表現することは言語理解にとって重要である。
まず,より長いフレーズのLM-内部表現を,その構成成分から予測する問題を定式化する。
意味的構成性の人間の判断と相関する予測精度を期待するが、大部分はそうではない。
論文 参考訳(メタデータ) (2022-10-07T14:21:30Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - It's not Rocket Science : Interpreting Figurative Language in Narratives [48.84507467131819]
我々は2つの非構成的図形言語(イディオムとシミュラ)の解釈を研究する。
実験の結果、事前学習された言語モデルのみに基づくモデルは、これらのタスクにおいて人間よりもはるかにひどい性能を示すことがわかった。
また, 知識強化モデルを提案し, 具体的言語を解釈するための人的戦略を採用した。
論文 参考訳(メタデータ) (2021-08-31T21:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。