Fugu-MT 論文翻訳(概要): You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments

論文の概要: You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments

arxiv url: http://arxiv.org/abs/2311.09718v1
Date: Thu, 16 Nov 2023 09:50:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 15:20:49.158902
Title: You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments
Title（参考訳）: これらのモデルが信頼できないことを知るためにパーソナリティテストは必要ない - 心理測定器を用いた大規模言語モデルの信頼性評価
Authors: Bangzhao Shu, Lechen Zhang, Minje Choi, Lavinia Dunagan, Dallas Card, David Jurgens
Abstract要約: 本稿では,現在のプロンプト形式が大規模言語モデルに対して一貫した応答を可能にするかどうかを検討する。 15の異なるオープンソース LLM 実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させるには十分であることがわかった。その結果,現在広く普及しているプロンプトは,モデル知覚を正確に捉えるには不十分であることが示唆された。
参考スコア（独自算出の注目度）: 20.74050964425973
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The versatility of Large Language Models (LLMs) on natural language understanding tasks has made them popular for research in social sciences. In particular, to properly understand the properties and innate personas of LLMs, researchers have performed studies that involve using prompts in the form of questions that ask LLMs of particular opinions. In this study, we take a cautionary step back and examine whether the current format of prompting enables LLMs to provide responses in a consistent and robust manner. We first construct a dataset that contains 693 questions encompassing 39 different instruments of persona measurement on 115 persona axes. Additionally, we design a set of prompts containing minor variations and examine LLM's capabilities to generate accurate answers, as well as consistency variations to examine their consistency towards simple perturbations such as switching the option order. Our experiments on 15 different open-source LLMs reveal that even simple perturbations are sufficient to significantly downgrade a model's question-answering ability, and that most LLMs have low negation consistency. Our results suggest that the currently widespread practice of prompting is insufficient to accurately capture model perceptions, and we discuss potential alternatives to improve such issues.
Abstract（参考訳）: 自然言語理解タスクにおける大規模言語モデル(llm)の汎用性は、社会科学の研究に人気を博した。特に、LLMの特性と本質的なペルソナを適切に理解するために、研究者は特定の意見をLLMに尋ねる質問の形でプロンプトを使用する研究を行っている。本研究は,LLMが一貫した,堅牢な応答を提供するのに,現在のプロンプト形式が有効であるかどうかを慎重に検討する。まず,39種類のペルソナ測定機器を含む693の質問を含むデータセットを構築した。さらに,小変量を含む一連のプロンプトを設計し,LLMの正確な解を生成する能力や,オプション順序の切り換えなどの単純な摂動に対する一貫性を検証するための整合性の変化について検討する。 15の異なるオープンソース LLM 実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させるには十分であり,ほとんどの LLM は否定整合性が低いことがわかった。以上の結果から,現在広く普及しているプロンプトの実践は,モデル知覚を正確に捉えるには不十分であり,この問題を改善するための潜在的な選択肢について考察する。

関連論文リスト

Prompt Perturbations Reveal Human-Like Biases in LLM Survey Responses [1.7170969275523118]
大規模言語モデル (LLMs) は、社会科学調査において、人間の被験者のプロキシとしてますます使われている。本稿では,標準調査文脈におけるLCMの応答ロバスト性について検討する。
論文参考訳（メタデータ） (2025-07-09T18:01:50Z)
Leveraging Interview-Informed LLMs to Model Survey Responses: Comparative Insights from AI-Generated and Human Data [4.774576759157642]
混合手法の研究は量的および質的なデータを統合するが、それらの異なる構造を整合させる際の課題に直面している。本研究では,大規模言語モデル(LLM)が人間の調査応答を確実に予測できるかどうかを検討する。
論文参考訳（メタデータ） (2025-05-28T05:57:26Z)
Reasoning Capabilities and Invariability of Large Language Models [49.23570751696334]
我々は,大規模言語モデルの推論能力に関する総合的な分析を行うことを目標としている。我々は、浅い論理的推論を要求する一連の単純な推論質問を含む新しいベンチマークデータセットを導入する。ゼロショットと少数ショットを含む実証分析では、70億以上のパラメータを持つLDMがゼロショット設定でより優れた性能を発揮する一方で、改善の余地がまだ大きいことが示されている。
論文参考訳（メタデータ） (2025-05-01T18:12:30Z)
An Empirical Study of the Role of Incompleteness and Ambiguity in Interactions with Large Language Models [0.9856777842758593]
人間の言語モデルと大規模言語モデル(LLM)の相互作用をモデル化するニューラルシンボリック・フレームワークを提案する。我々は質問の不完全性とあいまいさを、インタラクションで交換されたメッセージから導出可能な特性として定義する。その結果,不完全性やあいまいな質問の比率が高いデータセットでは,マルチターンインタラクションが要求されることがわかった。
論文参考訳（メタデータ） (2025-03-23T04:34:30Z)
Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。説明は正しい応答と誤応答の両方に依存することが判明した。情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文参考訳（メタデータ） (2025-02-12T16:35:41Z)
A Survey on Uncertainty Quantification of Large Language Models: Taxonomy, Open Research Challenges, and Future Directions [9.045698110081686]
大規模言語モデル (LLMs) は、信頼性を高く表現した、妥当で、事実的に正しくない応答を生成する。従来の研究では、LLMが生み出す幻覚やその他の非現実的な反応は、関連するプロンプトに対するLLMの不確実性を調べることによって検出できることが示されている。本調査は, LLMの健全な特徴と強度, 弱点を識別し, 既存の不確実性定量化手法を幅広く検討することを目的としている。
論文参考訳（メタデータ） (2024-12-07T06:56:01Z)
Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文参考訳（メタデータ） (2024-07-20T11:19:58Z)
Are Large Language Models Chameleons? An Attempt to Simulate Social Surveys [1.5727456947901746]
大規模言語モデル(LLM)が主観的な質問に答えるよう求められたシミュレーションを数百万回実施した。欧州社会調査(ESS)データと異なるLDM応答の比較は、プロンプトがバイアスや変動性に与える影響が基本であることを示唆している。
論文参考訳（メタデータ） (2024-05-29T17:54:22Z)
Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文参考訳（メタデータ） (2024-05-26T22:30:29Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Factuality of Large Language Models: A Survey [29.557596701431827]
我々は、主要な課題とその原因を特定することを目的として、既存の研究を批判的に分析する。オープンエンドテキスト生成における事実自動評価の障害を解析する。
論文参考訳（メタデータ） (2024-02-04T09:36:31Z)
Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。近年の文献では、LLMは断続的に非実効応答を生成する。本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文参考訳（メタデータ） (2023-10-27T06:22:14Z)
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文参考訳（メタデータ） (2023-10-05T00:04:12Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。