論文の概要: Exploring the Sensitivity of LLMs' Decision-Making Capabilities:
Insights from Prompt Variation and Hyperparameters
- arxiv url: http://arxiv.org/abs/2312.17476v1
- Date: Fri, 29 Dec 2023 05:19:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 13:42:19.863634
- Title: Exploring the Sensitivity of LLMs' Decision-Making Capabilities:
Insights from Prompt Variation and Hyperparameters
- Title(参考訳): llmsの意思決定能力の感度を探求する:迅速な変動とハイパーパラメータからの洞察
- Authors: Manikanta Loya, Divya Anand Sinha, Richard Futrell
- Abstract要約: 本研究では,大言語モデルがプロンプトやハイパーパラメータの変動にどう反応するかを検討する。
異なる能力を持つ3つのOpenAI言語モデルで実験することにより、入力プロンプトと温度設定に基づいて意思決定能力が変動することを確認する。
以前の発見言語モデルとは対照的に、プロンプトへの簡単な調整の後、人間のような探索的エクスプロイトのトレードオフを表示する。
- 参考スコア(独自算出の注目度): 6.00842499449049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of Large Language Models (LLMs) has led to their widespread
use across a broad spectrum of tasks including decision making. Prior studies
have compared the decision making abilities of LLMs with those of humans from a
psychological perspective. However, these studies have not always properly
accounted for the sensitivity of LLMs' behavior to hyperparameters and
variations in the prompt. In this study, we examine LLMs' performance on the
Horizon decision making task studied by Binz and Schulz (2023) analyzing how
LLMs respond to variations in prompts and hyperparameters. By experimenting on
three OpenAI language models possessing different capabilities, we observe that
the decision making abilities fluctuate based on the input prompts and
temperature settings. Contrary to previous findings language models display a
human-like exploration exploitation tradeoff after simple adjustments to the
prompt.
- Abstract(参考訳): 大規模言語モデル(llm)の進歩により、意思決定を含む幅広いタスクで広く使われるようになった。
これまでの研究では、LLMの意思決定能力と人間の意思決定能力を比較してきた。
しかし、これらの研究は必ずしもLLMの行動の過度パラメータに対する感受性とプロンプトの変化を適切に考慮していない。
本研究では,Binz と Schulz (2023) による水平決定タスクにおける LLM の性能について検討し,LLM がプロンプトやハイパーパラメータの変動にどう反応するかを解析した。
異なる能力を持つ3つのOpenAI言語モデルで実験することにより、入力プロンプトと温度設定に基づいて意思決定能力が変動することを確認する。
以前の発見言語モデルとは対照的に、プロンプトへの簡単な調整の後、人間のような探索的エクスプロイトのトレードオフを表示する。
関連論文リスト
- Large Language Models Think Too Fast To Explore Effectively [0.0]
大規模言語モデルが、特にオープンなタスクにおいて、効果的に探索できる範囲は、まだ不明である。
本研究では、Little Alchemy 2をパラダイムとして、オープンエンドタスクにおいて、LLMが人間を超えることができるかどうかを検討する。
論文 参考訳(メタデータ) (2025-01-29T21:51:17Z) - Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting [40.78026627009521]
強化学習(Reinforcement Learning、RL)は、大規模言語モデル(LLM)知識を逐次意思決定タスクと整合させるための有望なアプローチである。
テキスト環境下でのRL学習後の定式化を促進するために,LLMの感度を解析するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T18:25:35Z) - Do Large Language Models Possess Sensitive to Sentiment? [18.88126980975737]
大規模言語モデル(LLM)は、最近、言語理解における異常な能力を示した。
本稿では,LLMがテキストモーダルの感情を検知し,反応する能力について検討する。
論文 参考訳(メタデータ) (2024-09-04T01:40:20Z) - Modulating Language Model Experiences through Frictions [56.17593192325438]
言語モデルの過度な消費は、短期において未確認エラーを伝播し、長期的な批判的思考のために人間の能力を損なうリスクを出力する。
行動科学の介入にインスパイアされた言語モデル体験のための選択的摩擦を提案し,誤用を抑える。
論文 参考訳(メタデータ) (2024-06-24T16:31:11Z) - Character is Destiny: Can Role-Playing Language Agents Make Persona-Driven Decisions? [59.0123596591807]
我々は、ペルソナ駆動意思決定におけるLarge Language Models(LLM)の能力をベンチマークする。
高品質な小説において, LLM が先行する物語のキャラクターの判断を予測できるかどうかを検討する。
その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は残されている。
論文 参考訳(メタデータ) (2024-04-18T12:40:59Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。