Fugu-MT 論文翻訳(概要): Exploring the Sensitivity of LLMs' Decision-Making Capabilities: Insights from Prompt Variation and Hyperparameters

論文の概要: Exploring the Sensitivity of LLMs' Decision-Making Capabilities: Insights from Prompt Variation and Hyperparameters

arxiv url: http://arxiv.org/abs/2312.17476v1
Date: Fri, 29 Dec 2023 05:19:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-02 13:42:19.863634
Title: Exploring the Sensitivity of LLMs' Decision-Making Capabilities: Insights from Prompt Variation and Hyperparameters
Title（参考訳）: llmsの意思決定能力の感度を探求する:迅速な変動とハイパーパラメータからの洞察
Authors: Manikanta Loya, Divya Anand Sinha, Richard Futrell
Abstract要約: 本研究では,大言語モデルがプロンプトやハイパーパラメータの変動にどう反応するかを検討する。異なる能力を持つ3つのOpenAI言語モデルで実験することにより、入力プロンプトと温度設定に基づいて意思決定能力が変動することを確認する。以前の発見言語モデルとは対照的に、プロンプトへの簡単な調整の後、人間のような探索的エクスプロイトのトレードオフを表示する。
参考スコア（独自算出の注目度）: 6.00842499449049
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advancement of Large Language Models (LLMs) has led to their widespread use across a broad spectrum of tasks including decision making. Prior studies have compared the decision making abilities of LLMs with those of humans from a psychological perspective. However, these studies have not always properly accounted for the sensitivity of LLMs' behavior to hyperparameters and variations in the prompt. In this study, we examine LLMs' performance on the Horizon decision making task studied by Binz and Schulz (2023) analyzing how LLMs respond to variations in prompts and hyperparameters. By experimenting on three OpenAI language models possessing different capabilities, we observe that the decision making abilities fluctuate based on the input prompts and temperature settings. Contrary to previous findings language models display a human-like exploration exploitation tradeoff after simple adjustments to the prompt.
Abstract（参考訳）: 大規模言語モデル(llm)の進歩により、意思決定を含む幅広いタスクで広く使われるようになった。これまでの研究では、LLMの意思決定能力と人間の意思決定能力を比較してきた。しかし、これらの研究は必ずしもLLMの行動の過度パラメータに対する感受性とプロンプトの変化を適切に考慮していない。本研究では,Binz と Schulz (2023) による水平決定タスクにおける LLM の性能について検討し,LLM がプロンプトやハイパーパラメータの変動にどう反応するかを解析した。異なる能力を持つ3つのOpenAI言語モデルで実験することにより、入力プロンプトと温度設定に基づいて意思決定能力が変動することを確認する。以前の発見言語モデルとは対照的に、プロンプトへの簡単な調整の後、人間のような探索的エクスプロイトのトレードオフを表示する。

関連論文リスト

Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文参考訳（メタデータ） (2025-06-24T09:49:26Z)
Can LLMs Simulate Human Behavioral Variability? A Case Study in the Phonemic Fluency Task [0.0]
大きな言語モデル(LLM)は、認知タスクにおける人間の参加者の代用として、ますます研究されている。本研究では,LLMが音素流速タスクの個人差を近似できるかどうかを検討する。
論文参考訳（メタデータ） (2025-05-22T03:08:27Z)
Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。 LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文参考訳（メタデータ） (2025-03-06T05:15:34Z)
Large Language Models Think Too Fast To Explore Effectively [0.0]
大規模言語モデルが、特にオープンなタスクにおいて、効果的に探索できる範囲は、まだ不明である。本研究では、Little Alchemy 2をパラダイムとして、オープンエンドタスクにおいて、LLMが人間を超えることができるかどうかを検討する。
論文参考訳（メタデータ） (2025-01-29T21:51:17Z)
Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting [40.78026627009521]
強化学習(Reinforcement Learning、RL)は、大規模言語モデル(LLM)知識を逐次意思決定タスクと整合させるための有望なアプローチである。テキスト環境下でのRL学習後の定式化を促進するために,LLMの感度を解析するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-25T18:25:35Z)
Do Large Language Models Possess Sensitive to Sentiment? [18.88126980975737]
大規模言語モデル(LLM)は、最近、言語理解における異常な能力を示した。本稿では,LLMがテキストモーダルの感情を検知し,反応する能力について検討する。
論文参考訳（メタデータ） (2024-09-04T01:40:20Z)
Social Bias Evaluation for Large Language Models Requires Prompt Variations [38.91306092184724]
大規模言語モデル(LLM)は、かなりの社会的偏見を示す。本稿では,高速変動変化におけるLDMの感度について検討する。 LLMは、そのプロンプトによって引き起こされる社会的偏見と性能のトレードオフがあることが示される。
論文参考訳（メタデータ） (2024-07-03T14:12:04Z)
Modulating Language Model Experiences through Frictions [56.17593192325438]
言語モデルの過度な消費は、短期において未確認エラーを伝播し、長期的な批判的思考のために人間の能力を損なうリスクを出力する。行動科学の介入にインスパイアされた言語モデル体験のための選択的摩擦を提案し,誤用を抑える。
論文参考訳（メタデータ） (2024-06-24T16:31:11Z)
Character is Destiny: Can Role-Playing Language Agents Make Persona-Driven Decisions? [59.0123596591807]
我々は、ペルソナ駆動意思決定におけるLarge Language Models(LLM)の能力をベンチマークする。高品質な小説において, LLM が先行する物語のキャラクターの判断を予測できるかどうかを検討する。その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は残されている。
論文参考訳（メタデータ） (2024-04-18T12:40:59Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。 LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-29T22:49:43Z)
The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。 LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文参考訳（メタデータ） (2024-03-25T19:07:32Z)
You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。 17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文参考訳（メタデータ） (2023-11-16T09:50:53Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。