論文の概要: Benchmarking Mental State Representations in Language Models
- arxiv url: http://arxiv.org/abs/2406.17513v2
- Date: Mon, 1 Jul 2024 06:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 12:51:40.275432
- Title: Benchmarking Mental State Representations in Language Models
- Title(参考訳): 言語モデルにおけるメンタル状態表現のベンチマーク
- Authors: Matteo Bortoletto, Constantin Ruhdorfer, Lei Shi, Andreas Bulling,
- Abstract要約: モデルの内部的な精神状態の表現に関する研究は依然として限られている。
最近の研究は、LMが自分自身や他人の信念を表現できることを示すのに、プローブを用いている。
モデルサイズが異なる様々なLMタイプを用いた広範囲なベンチマークを報告する。
我々は,素早い変化が心的タスクの理論における探索的パフォーマンスにどのように影響するかを初めて研究する。
- 参考スコア(独自算出の注目度): 9.318796743761224
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While numerous works have assessed the generative performance of language models (LMs) on tasks requiring Theory of Mind reasoning, research into the models' internal representation of mental states remains limited. Recent work has used probing to demonstrate that LMs can represent beliefs of themselves and others. However, these claims are accompanied by limited evaluation, making it difficult to assess how mental state representations are affected by model design and training choices. We report an extensive benchmark with various LM types with different model sizes, fine-tuning approaches, and prompt designs to study the robustness of mental state representations and memorisation issues within the probes. Our results show that the quality of models' internal representations of the beliefs of others increases with model size and, more crucially, with fine-tuning. We are the first to study how prompt variations impact probing performance on theory of mind tasks. We demonstrate that models' representations are sensitive to prompt variations, even when such variations should be beneficial. Finally, we complement previous activation editing experiments on Theory of Mind tasks and show that it is possible to improve models' reasoning performance by steering their activations without the need to train any probe.
- Abstract(参考訳): 言語モデル(LM)は、心の理論の推論を必要とするタスクにおいて、多くの研究が生成性能を評価してきたが、モデルの内部的な精神状態の表現に関する研究は依然として限られている。
最近の研究は、LMが自分自身や他人の信念を表現できることを示すのに、プローブを用いている。
しかし、これらの主張には限定的な評価が伴い、モデル設計とトレーニング選択によって精神状態がどう影響するかを評価することは困難である。
本報告では,様々なモデルサイズ,微調整アプローチ,知的状態表現のロバスト性や,プローブ内の暗記問題などについて検討する設計を促すため,様々なLMタイプを用いた広範囲なベンチマークを報告する。
以上の結果から,他者の信念に対するモデルの内部表現の質は,モデルのサイズによって向上し,さらに重要なことは微調整によって向上することが示唆された。
我々は,素早い変化が心的タスクの理論における探索的パフォーマンスにどのように影響するかを初めて研究する。
モデル表現は、たとえそのようなバリエーションが有益であるとしても、迅速な変動に敏感であることを示す。
最後に、マインド理論における過去のアクティベーション編集実験を補完し、プローブを訓練することなく、それらのアクティベーションを操ることで、モデルの推論性能を向上させることができることを示す。
関連論文リスト
- Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Estimating Knowledge in Large Language Models Without Generating a Single Token [12.913172023910203]
大規模言語モデル(LLM)における知識を評価するための現在の手法は、モデルをクエリし、生成した応答を評価する。
本研究では,モデルがテキストを生成する前に評価を行うことができるかどうかを問う。
様々なLLMを用いた実験では、内部の主題表現を訓練した単純なプローブであるKEENが、両方のタスクで成功することが示された。
論文 参考訳(メタデータ) (2024-06-18T14:45:50Z) - Understanding the Inner Workings of Language Models Through
Representation Dissimilarity [5.987278280211877]
表現差分測度は、2つのモデルの内部表現が異なる範囲を測定する関数である。
この結果から,言語モデルの内部動作に光を当てる手段としては,異種度対策が有望なツールセットであることが示唆された。
論文 参考訳(メタデータ) (2023-10-23T14:46:20Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。
これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。
これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文 参考訳(メタデータ) (2023-06-06T18:00:01Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。