論文の概要: Psychometric Predictive Power of Large Language Models
- arxiv url: http://arxiv.org/abs/2311.07484v1
- Date: Mon, 13 Nov 2023 17:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 13:20:49.476392
- Title: Psychometric Predictive Power of Large Language Models
- Title(参考訳): 大規模言語モデルの心理的予測力
- Authors: Tatsuki Kuribayashi, Yohei Oseki, Timothy Baldwin
- Abstract要約: 言語モデルからの次の単語確率は、人間の読書行動のシミュレートに成功している。
命令調整型大規模言語モデル (LLM) は, 同等の難易度を持つベースLLMよりも, 人間の読影行動に対する心理測定予測力 (PPP) が劣ることを示す。
- 参考スコア(独自算出の注目度): 36.31945177731897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Next-word probabilities from language models have been shown to successfully
simulate human reading behavior. Building on this, we show that, interestingly,
instruction-tuned large language models (LLMs) yield worse psychometric
predictive power (PPP) for human reading behavior than base LLMs with
equivalent perplexities. In other words, instruction tuning, which helps LLMs
provide human-preferred responses, does not always make them human-like from
the computational psycholinguistics perspective. In addition, we explore
prompting methodologies in simulating human reading behavior with LLMs, showing
that prompts reflecting a particular linguistic hypothesis lead LLMs to exhibit
better PPP but are still worse than base LLMs. These highlight that recent
instruction tuning and prompting do not offer better estimates than direct
probability measurements from base LLMs in cognitive modeling.
- Abstract(参考訳): 言語モデルからの次の単語確率は、人間の読書行動のシミュレートに成功している。
これに基づいて, 命令調整型大規模言語モデル (LLM) が, 同等の難易度を持つベースLLMよりも, 人間の読影行動に対する心理的予測力 (PPP) を低下させることを示す。
言い換えれば、LLMが人間に好まれる応答を提供するのに役立つ命令チューニングは、計算心理学の観点から常に人間に似たものとは限らない。
さらに, LLMを用いた読解行動のシミュレーション手法について検討し, 特定の言語仮説を反映するプロンプトが優れたPPPを示すが, ベースLLMよりも悪いことを示す。
これらの結果は、最近の命令のチューニングとプロンプトが認知モデリングにおけるベースllmからの直接的確率測定よりも優れた推定を提供していないことを強調する。
関連論文リスト
- Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Systematic Biases in LLM Simulations of Debates [14.12892960275563]
本研究では,人間の相互作用をシミュレーションする際のLLM(Large Language Models)の限界を明らかにする。
以上の結果から,LLMエージェントが特定の政治的視点から議論される一方で,モデル固有の社会的バイアスに適合する傾向が示唆された。
この傾向は、人間の間で確立された社会的ダイナミクスから逸脱しているように見える行動パターンをもたらす。
論文 参考訳(メタデータ) (2024-02-06T14:51:55Z) - Probing Structured Semantics Understanding and Generation of Language
Models via Question Answering [56.610044062739256]
本研究では,人間が構築した形式言語を用いて質問応答のタスクにおいて,大規模言語モデルが構造化意味論に対処する能力について検討する。
異なる大きさのモデルと異なる形式言語を用いた実験は、今日の最先端のLLMの論理形式に対する理解が全体的な人間レベルにアプローチできることを示している。
結果は、モデルが異なる形式言語にかなり敏感であることを示している。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Tailoring Personality Traits in Large Language Models via
Unsupervisedly-Built Personalized Lexicons [42.66142331217763]
人格は人間の表現パターンを形成する上で重要な役割を果たしている。
従来の手法は、特定のコーパス上の細調整された大規模言語モデル(LLM)に依存していた。
我々は,人格特性を操作するために,Unsupervisedly-Built Personal lexicon (UBPL) をプラガブルな方法で採用した。
論文 参考訳(メタデータ) (2023-10-25T12:16:33Z) - Large Language Models are biased to overestimate profoundness [0.0]
本研究は, GPT-4 およびその他の様々な大規模言語モデル (LLM) を用いて, 日常的, 動機的, 疑似発声文の深度を判定する。
その結果, LLM と人間の間には, 文の種類やプロンプト技術によらず, 有意なステートメントとステートメントの相関関係が認められた。
論文 参考訳(メタデータ) (2023-10-22T21:33:50Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - On Learning to Summarize with Large Language Models as References [105.62615205746106]
本研究では,大規模言語モデル(LLM)を,データセット上のゴールドスタンダード・オラクルの参照あるいは参照とみなす新たな学習環境について検討する。
CNN/DailyMailおよびXSumデータセットの実験では、より小さな要約モデルがLLMと同等のパフォーマンスを達成できることが示されている。
しかし,人間による評価では,小型モデルではLLMレベルに到達できないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。