論文の概要: Is This Just Fantasy? Language Model Representations Reflect Human Judgments of Event Plausibility
- arxiv url: http://arxiv.org/abs/2507.12553v1
- Date: Wed, 16 Jul 2025 18:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.235951
- Title: Is This Just Fantasy? Language Model Representations Reflect Human Judgments of Event Plausibility
- Title(参考訳): これは単なる幻想か? 言語モデル表現は、事象の可視性の人間の判断を反映する
- Authors: Michael A. Lepori, Jennifer Hu, Ishita Dasgupta, Roma Patel, Thomas Serre, Ellie Pavlick,
- Abstract要約: 言語モデル(LM)は、質問応答から幻想的なストーリーを書くまで、様々なタスクに使用される。
近年の研究では、LMが文をモダリティに応じて分類する能力に疑問を呈している。
モーダル差分ベクトルの解析により、LMは以前報告されたよりも信頼性の高いモーダル分類判定にアクセスできることが明らかになった。
- 参考スコア(独自算出の注目度): 35.26836416890821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) are used for a diverse range of tasks, from question answering to writing fantastical stories. In order to reliably accomplish these tasks, LMs must be able to discern the modal category of a sentence (i.e., whether it describes something that is possible, impossible, completely nonsensical, etc.). However, recent studies have called into question the ability of LMs to categorize sentences according to modality (Michaelov et al., 2025; Kauf et al., 2023). In this work, we identify linear representations that discriminate between modal categories within a variety of LMs, or modal difference vectors. Analysis of modal difference vectors reveals that LMs have access to more reliable modal categorization judgments than previously reported. Furthermore, we find that modal difference vectors emerge in a consistent order as models become more competent (i.e., through training steps, layers, and parameter count). Notably, we find that modal difference vectors identified within LM activations can be used to model fine-grained human categorization behavior. This potentially provides a novel view into how human participants distinguish between modal categories, which we explore by correlating projections along modal difference vectors with human participants' ratings of interpretable features. In summary, we derive new insights into LM modal categorization using techniques from mechanistic interpretability, with the potential to inform our understanding of modal categorization in humans.
- Abstract(参考訳): 言語モデル(LM)は、質問応答から幻想的なストーリーを書くまで、様々なタスクに使用される。
これらのタスクを確実に達成するためには、LMは文のモーダル圏(可能なもの、不可能なもの、完全に非意味なものなど)を識別できなければならない。
しかし、近年の研究では、LMが文をモダリティ(Michaelov et al , 2025; Kauf et al , 2023)に応じて分類する能力に疑問を投げかけている。
本研究では,様々な LM 内のモーダル圏を識別する線形表現,あるいはモーダル差分ベクトルを同定する。
モーダル差分ベクトルの解析により、LMは以前報告されたよりも信頼性の高いモーダル分類判定にアクセスできることが明らかになった。
さらに、モデルがより有能になるにつれて、モーダル差分ベクトルが一貫した順序で現れる(すなわち、トレーニングステップ、レイヤー、パラメータカウント)。
特に、LMアクティベーション内で特定されたモーダル差分ベクトルは、きめ細かい人間の分類行動のモデル化に利用できる。
このことは、人間の参加者がモーダルなカテゴリーを区別する方法に新しい見解を与える可能性があり、我々は、モーダルな差分ベクトルに沿って投影と人間の解釈可能な特徴のレーティングとを関連付けることによって探求する。
まとめると、機械的解釈可能性の手法を用いて、LMのモーダル分類に関する新たな知見を導き、人間のモーダル分類に関する理解を深める可能性がある。
関連論文リスト
- Perception of Visual Content: Differences Between Humans and Foundation Models [4.251488927334905]
本研究では,多様な社会経済的文脈における画像のヒト生成アノテーションとML生成アノテーションの類似性について検討した。
我々は、知覚の違いを理解し、コンテンツ解釈における潜在的なバイアスを特定することを目的としている。
論文 参考訳(メタデータ) (2024-11-28T07:37:04Z) - Verbalized Representation Learning for Interpretable Few-Shot Generalization [130.8173035901391]
Verbalized Representation Learning (VRL)は、オブジェクト認識のための人間の解釈可能な特徴を自動的に抽出する新しいアプローチである。
本手法は,クラス間の差異とクラス内共通点を自然言語形式で把握する。
VRLは従来の最先端手法よりも24%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2024-11-27T01:55:08Z) - Lost in Inference: Rediscovering the Role of Natural Language Inference for Large Language Models [36.983534612895156]
近年、自然言語理解(NLU)を評価する一般的な方法は、自然言語推論(NLI)タスクを実行するモデルの能力を検討することである。
本稿では,異なるスケールの6つのモデルにわたる5つの異なるNLIベンチマークに焦点を当てる。
我々は,異なるサイズと品質のモデルを識別できるかどうか,トレーニング中にその精度がどのように発達するかを検討する。
論文 参考訳(メタデータ) (2024-11-21T13:09:36Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights [50.89022445197919]
本研究は,8つのリスクカテゴリーを敵意(悪意的皮肉と脅し),悪意的模倣(年齢,性別,民族),ステレオタイプ的バイアス(年齢,性別,民族)を対象とする音声特異的リスク分類法を提案する。
分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。
論文 参考訳(メタデータ) (2024-06-25T10:08:45Z) - Naming, Describing, and Quantifying Visual Objects in Humans and LLMs [5.59181673439492]
視覚・言語大言語モデル(VLLM)を3つのカテゴリ(名詞・属性・量化子)で評価する。
我々は、VLLMsが人間の命名選好を世代毎に捉える能力について、様々な証拠を見出している。
論文 参考訳(メタデータ) (2024-03-11T17:20:12Z) - RAVEL: Evaluating Interpretability Methods on Disentangling Language Model Representations [38.79058788596755]
本稿では,解釈可能性法間の厳密に制御された定量的な比較を可能にするデータセットであるRAVELを紹介する。
得られた概念的枠組みを用いて,マルチタスク分散アライメント探索の新しい手法を定義する。
Llama2-7Bをターゲット言語モデルとして、MDASはRAVELで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-27T17:25:37Z) - Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Do language models learn typicality judgments from text? [6.252236971703546]
認知科学における一般的な現象である典型性に関する予測言語モデル(LM)を評価する。
最初の試験は、分類学的分類群を項目に割り当てる際、典型性がLMを調節するかどうかを目標とする。
第2の試験は、アイテムに関する新しい情報をそのカテゴリに拡張する際に、LMの確率の典型性に対する感受性を調査する。
論文 参考訳(メタデータ) (2021-05-06T21:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。