論文の概要: Do Large Language Models know who did what to whom?
- arxiv url: http://arxiv.org/abs/2504.16884v1
- Date: Wed, 23 Apr 2025 17:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 15:09:30.709349
- Title: Do Large Language Models know who did what to whom?
- Title(参考訳): 大規模言語モデルは誰が誰に何をしたかを知っていますか?
- Authors: Joseph M. Denning, Xiaohan, Guo, Bryor Snefjella, Idan A. Blank,
- Abstract要約: 大きな言語モデル(LLM)は、言語を理解していないとして一般的に批判されている。
ここでは、言語に強く結びついているある種の理解について研究する。
- 参考スコア(独自算出の注目度): 3.772669278015743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are commonly criticized for not understanding language. However, many critiques focus on cognitive abilities that, in humans, are distinct from language processing. Here, we instead study a kind of understanding tightly linked to language: inferring who did what to whom (thematic roles) in a sentence. Does the central training objective of LLMs-word prediction-result in sentence representations that capture thematic roles? In two experiments, we characterized sentence representations in four LLMs. In contrast to human similarity judgments, in LLMs the overall representational similarity of sentence pairs reflected syntactic similarity but not whether their agent and patient assignments were identical vs. reversed. Furthermore, we found little evidence that thematic role information was available in any subset of hidden units. However, some attention heads robustly captured thematic roles, independently of syntax. Therefore, LLMs can extract thematic roles but, relative to humans, this information influences their representations more weakly.
- Abstract(参考訳): 大きな言語モデル(LLM)は、言語を理解していないとして一般的に批判されている。
しかしながら、多くの批判は、人間が言語処理とは異なる認知能力に焦点を当てている。
ここでは、言語に強く結びついているある種の理解について研究する: 文の中で誰が誰に何をしたか(数学的な役割)を推測する。
主題的役割を捉えた文表現における LLMs-word prediction-result の中心的学習目標
2つの実験において,4つのLLMにおける文表現について検討した。
ヒトの類似性判定とは対照的に,LLMでは,文対の全体的表現的類似性は構文的類似性を反映するが,それらのエージェントと患者代入が逆転するか否かは反映しなかった。
さらに,隠蔽ユニットの任意のサブセットにおいて,主題的役割情報が利用可能であったという証拠はほとんど見つからなかった。
しかし、いくつかの注意は、構文とは独立して、主題的役割をしっかりと捉えた。
したがって、LLMは主題的役割を抽出することができるが、人間に対して、この情報は彼らの表現により弱い影響を及ぼす。
関連論文リスト
- Collaborative Storytelling and LLM: A Linguistic Analysis of Automatically-Generated Role-Playing Game Sessions [55.2480439325792]
RPG(ロールプレイングゲーム)とは、プレイヤーが互いに対話して物語を作るゲームである。
この共有物語の新たな形態は、主に口頭で注目されている。
本稿では,大言語モデル(LLM)の言語がRPGセッションの生成を依頼した場合に,どの程度に口頭や書面の機能を示すかを明らかにすることを目的とする。
論文 参考訳(メタデータ) (2025-03-26T15:10:47Z) - Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - Can LLM Agents Maintain a Persona in Discourse? [3.286711575862228]
大規模言語モデル(LLM)は、教育、法律、医学など、様々な分野でその能力を利用する会話エージェントとして広く利用されている。
LLMは、しばしばコンテキストシフトの振る舞いを受け、一貫性と解釈可能なパーソナリティ整合性の相互作用が欠如する。
LLMはパーソナライズされた対話へと導くことができるが、その性格特性を維持する能力はモデルと談話設定の組み合わせによって大きく異なる。
論文 参考訳(メタデータ) (2025-02-17T14:36:39Z) - Implicit Causality-biases in humans and LLMs as a tool for benchmarking LLM discourse capabilities [0.0]
モデルサイズの範囲にまたがる単言語LLMと多言語LLMで生成されたデータと、被験者が提供したデータとを比較した。
我々は,より一般的な談話理解能力のための堅牢なプロキシとして,談話バイアスを伴うLLMの能力を評価するためのベンチマークを開発することを目的とする。
論文 参考訳(メタデータ) (2025-01-22T16:07:24Z) - The Essence of Contextual Understanding in Theory of Mind: A Study on Question Answering with Story Characters [67.61587661660852]
理論・オブ・ミンド(ToM)は、人間が他者の精神状態を理解し解釈することを可能にする。
本稿では,ToMにおける個人的背景に関する包括的文脈理解の重要性を検証する。
本稿では,古典小説の登場人物をベースとした1,035ToM質問からなるCharToMベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-01-03T09:04:45Z) - Divergences between Language Models and Human Brains [59.100552839650774]
我々は,人間と機械語処理の相違点を体系的に探求する。
我々は、LMがうまく捉えられない2つの領域、社会的/感情的知性と身体的常識を識別する。
以上の結果から,これらの領域における微調整LMは,ヒト脳反応との整合性を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-11-15T19:02:40Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Human Behavioral Benchmarking: Numeric Magnitude Comparison Effects in
Large Language Models [4.412336603162406]
大規模言語モデル(LLM)は、テキストで広まる数値を差分表現しない。
本研究では,LLMが行動レンズからどれだけの数の数値を捉えているかを検討する。
論文 参考訳(メタデータ) (2023-05-18T07:50:44Z) - Event knowledge in large language models: the gap between the impossible
and the unlikely [46.540380831486125]
我々は,事前学習された大規模言語モデル (LLM) がイベント知識を持つことを示す。
彼らはほぼ常に、不可能な事象に対して高い確率を割り当てる。
しかし、おそらくは起こりそうもない出来事に対して、一貫性のない選好を示す。
論文 参考訳(メタデータ) (2022-12-02T23:43:18Z) - Are Representations Built from the Ground Up? An Empirical Examination
of Local Composition in Language Models [91.3755431537592]
構成的・非構成的句を表現することは言語理解にとって重要である。
まず,より長いフレーズのLM-内部表現を,その構成成分から予測する問題を定式化する。
意味的構成性の人間の判断と相関する予測精度を期待するが、大部分はそうではない。
論文 参考訳(メタデータ) (2022-10-07T14:21:30Z) - Probing Pretrained Language Models for Lexical Semantics [76.73599166020307]
類型的多様言語と5つの異なる語彙課題にまたがる系統的経験分析を行った。
我々の結果は、普遍的に維持されるパターンとベストプラクティスを示しているが、言語やタスクにまたがる顕著なバリエーションを示している。
論文 参考訳(メタデータ) (2020-10-12T14:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。