Fugu-MT 論文翻訳(概要): Psychometric Predictive Power of Large Language Models

論文の概要: Psychometric Predictive Power of Large Language Models

arxiv url: http://arxiv.org/abs/2311.07484v2
Date: Wed, 3 Apr 2024 15:45:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 22:56:57.424110
Title: Psychometric Predictive Power of Large Language Models
Title（参考訳）: 大規模言語モデルの心理的予測力
Authors: Tatsuki Kuribayashi, Yohei Oseki, Timothy Baldwin,
Abstract要約: そこで本研究では,認知モデルの観点から,命令チューニングが必ずしも大きな言語モデルを作るとは限らないことを示す。命令調整 LLM で推定される次の単語確率は、基本 LLM で推定されるものよりも、人間の読み動作をシミュレートする場合には、しばしば悪化する。
参考スコア（独自算出の注目度）: 32.31556074470733
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Instruction tuning aligns the response of large language models (LLMs) with human preferences. Despite such efforts in human--LLM alignment, we report that, interestingly, instruction tuning does not always make LLMs human-like from a cognitive modeling perspective. More specifically, next-word probabilities estimated by instruction-tuned LLMs are often worse at simulating human reading behavior than those estimated by base LLMs. In addition, we explore prompting methodologies in simulating human reading behavior with LLMs. Our results show that prompts reflecting a particular linguistic hypothesis improve PPP but are still inferior to PPP from small base models. These findings highlight that recent advancements in LLMs, i.e., instruction tuning and prompting, do not offer better estimates than direct probability measurements from base LLMs in cognitive modeling. In other words, our experiments highlight that pure next-word probability remains a strong predictor for human reading behavior, even in the age of LLMs.
Abstract（参考訳）: インストラクションチューニングは、大きな言語モデル(LLM)の応答と人間の好みを一致させる。このような人間-LLMアライメントの取り組みにもかかわらず、興味深いことに、インストラクションチューニングが認知モデルの観点からLLMを人間らしくするとは限らないことが報告されている。より具体的には、命令調整されたLLMで推定される次の単語確率は、基本LLMで推定されるよりも人間の読書行動のシミュレートが悪くなることが多い。また,LLMを用いた読解行動のシミュレーション手法についても検討した。以上の結果から,特定の言語仮説を反映するプロンプトはPPPを改善するが,小ベースモデルではPPPに劣ることが示された。これらの結果から,LLMの最近の進歩,すなわち命令チューニングとプロンプトは,認知モデルにおけるベースLLMの直接的確率測定よりも優れた推定値を提供していないことが示唆された。言い換えれば、LLMの時代においても、純粋な次の単語確率は人間の読書行動の強力な予測因子であり続けている。

関連論文リスト

Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models [50.16340812031201]
我々は,大規模言語モデル (LLM) がベイジアンフレームワークから期待されているように,その信念を更新しないことを示す。我々は、最適ベイズモデルの予測を模倣するように訓練することで、ベイズ的な推論をLLMに教える。
論文参考訳（メタデータ） (2025-03-21T20:13:04Z)
Cognitive phantoms in LLMs through the lens of latent variables [0.3441021278275805]
大規模言語モデル(LLM)はますます現実のアプリケーションに到達し、それらの振る舞いをよりよく理解する必要がある。近年のLCMに対する心理測定調査では、LLMの人間らしい特徴が報告されており、潜在的に影響する可能性がある。このアプローチは有効性の問題に悩まされており、これらの特性がLLMに存在し、人間用に設計されたツールで測定可能であることを前提としている。本研究では,人間と3人のLDMの潜在的性格構造を2つの評価されたパーソナリティアンケートを用いて比較することにより,この問題を考察する。
論文参考訳（メタデータ） (2024-09-06T12:42:35Z)
Bayesian Statistical Modeling with Predictors from LLMs [5.5711773076846365]
State of the Art Large Language Model (LLM)は、様々なベンチマークタスクで印象的なパフォーマンスを示している。このことは、LLMから派生した情報の人間的類似性に関する疑問を提起する。
論文参考訳（メタデータ） (2024-06-13T11:33:30Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Tailoring Personality Traits in Large Language Models via Unsupervisedly-Built Personalized Lexicons [42.66142331217763]
人格は人間の表現パターンを形成する上で重要な役割を果たしている。従来の手法は、特定のコーパス上の細調整された大規模言語モデル(LLM)に依存していた。我々は,人格特性を操作するために,Unsupervisedly-Built Personal lexicon (UBPL) をプラガブルな方法で採用した。
論文参考訳（メタデータ） (2023-10-25T12:16:33Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)
Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文参考訳（メタデータ） (2023-01-31T18:46:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。