論文の概要: You don't need a personality test to know these models are unreliable:
Assessing the Reliability of Large Language Models on Psychometric
Instruments
- arxiv url: http://arxiv.org/abs/2311.09718v1
- Date: Thu, 16 Nov 2023 09:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:20:49.158902
- Title: You don't need a personality test to know these models are unreliable:
Assessing the Reliability of Large Language Models on Psychometric
Instruments
- Title(参考訳): これらのモデルが信頼できないことを知るためにパーソナリティテストは必要ない - 心理測定器を用いた大規模言語モデルの信頼性評価
- Authors: Bangzhao Shu, Lechen Zhang, Minje Choi, Lavinia Dunagan, Dallas Card,
David Jurgens
- Abstract要約: 本稿では,現在のプロンプト形式が大規模言語モデルに対して一貫した応答を可能にするかどうかを検討する。
15の異なるオープンソース LLM 実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させるには十分であることがわかった。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確に捉えるには不十分であることが示唆された。
- 参考スコア(独自算出の注目度): 20.74050964425973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The versatility of Large Language Models (LLMs) on natural language
understanding tasks has made them popular for research in social sciences. In
particular, to properly understand the properties and innate personas of LLMs,
researchers have performed studies that involve using prompts in the form of
questions that ask LLMs of particular opinions. In this study, we take a
cautionary step back and examine whether the current format of prompting
enables LLMs to provide responses in a consistent and robust manner. We first
construct a dataset that contains 693 questions encompassing 39 different
instruments of persona measurement on 115 persona axes. Additionally, we design
a set of prompts containing minor variations and examine LLM's capabilities to
generate accurate answers, as well as consistency variations to examine their
consistency towards simple perturbations such as switching the option order.
Our experiments on 15 different open-source LLMs reveal that even simple
perturbations are sufficient to significantly downgrade a model's
question-answering ability, and that most LLMs have low negation consistency.
Our results suggest that the currently widespread practice of prompting is
insufficient to accurately capture model perceptions, and we discuss potential
alternatives to improve such issues.
- Abstract(参考訳): 自然言語理解タスクにおける大規模言語モデル(llm)の汎用性は、社会科学の研究に人気を博した。
特に、LLMの特性と本質的なペルソナを適切に理解するために、研究者は特定の意見をLLMに尋ねる質問の形でプロンプトを使用する研究を行っている。
本研究は,LLMが一貫した,堅牢な応答を提供するのに,現在のプロンプト形式が有効であるかどうかを慎重に検討する。
まず,39種類のペルソナ測定機器を含む693の質問を含むデータセットを構築した。
さらに,小変量を含む一連のプロンプトを設計し,LLMの正確な解を生成する能力や,オプション順序の切り換えなどの単純な摂動に対する一貫性を検証するための整合性の変化について検討する。
15の異なるオープンソース LLM 実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させるには十分であり,ほとんどの LLM は否定整合性が低いことがわかった。
以上の結果から,現在広く普及しているプロンプトの実践は,モデル知覚を正確に捉えるには不十分であり,この問題を改善するための潜在的な選択肢について考察する。
関連論文リスト
- Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Are Large Language Models Chameleons? An Attempt to Simulate Social Surveys [1.5727456947901746]
大規模言語モデル(LLM)が主観的な質問に答えるよう求められたシミュレーションを数百万回実施した。
欧州社会調査(ESS)データと異なるLDM応答の比較は、プロンプトがバイアスや変動性に与える影響が基本であることを示唆している。
論文 参考訳(メタデータ) (2024-05-29T17:54:22Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Factuality of Large Language Models: A Survey [29.557596701431827]
我々は、主要な課題とその原因を特定することを目的として、既存の研究を批判的に分析する。
オープンエンドテキスト生成における事実自動評価の障害を解析する。
論文 参考訳(メタデータ) (2024-02-04T09:36:31Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。