論文の概要: Influence of Solution Efficiency and Valence of Instruction on Additive and Subtractive Solution Strategies in Humans and GPT-4
- arxiv url: http://arxiv.org/abs/2404.16692v3
- Date: Sat, 16 Nov 2024 16:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:31:09.959522
- Title: Influence of Solution Efficiency and Valence of Instruction on Additive and Subtractive Solution Strategies in Humans and GPT-4
- Title(参考訳): ヒトとGPT-4の添加および減量的解法に及ぼす解効率と指示の妥当性の影響
- Authors: Lydia Uhler, Verena Jordan, Jürgen Buder, Markus Huff, Frank Papenmeier,
- Abstract要約: 本研究では,空間的タスクと言語的タスクの双方において,人間とGPT-4の問題解決を比較した。
588人の米国からの参加者と680人のGPT-4の反復による4つの実験では、GPT-4の付加的な変換は人間よりも強い傾向を示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Generative artificial intelligences, particularly large language models (LLMs), play an increasingly prominent role in human decision-making contexts, necessitating transparency about their capabilities. While prior studies have shown addition biases in humans (Adams et al., 2021) and OpenAI's GPT-3 (Winter et al., 2023), this study extends the research by comparing human and GPT-4 problem-solving across both spatial and linguistic tasks, with variations in solution efficiency and valence of task instruction. Four preregistered experiments with 588 participants from the U.S. and 680 GPT-4 iterations revealed a stronger tendency towards additive transformations in GPT-4 than in humans. Human participants were less likely to use additive strategies when subtraction was relatively more efficient than when addition and subtraction were equally efficient. GPT-4 exhibited the opposite behavior, with a strong addition bias when subtraction was more efficient. In terms of valence of task instruction, GPT-4's use of additive strategies increased when instructed to "improve" (positive) rather than "edit" (neutral). These findings demonstrate that biases in human problem-solving are amplified in GPT-4, and that LLM behavior differs from human efficiency-based strategies. This highlights the limitations of LLMs and the need for caution when using them in real-world applications.
- Abstract(参考訳): 生成的人工知能、特に大きな言語モデル(LLM)は、人間の意思決定の文脈において、その能力に関する透明性を必要とし、ますます顕著な役割を担っている。
Adams et al , 2021) と OpenAI の GPT-3 (Winter et al , 2023) に有意な差が認められたが, 本研究は, 空間的および言語的タスク間での GPT-4 問題の解法を比較し, 解法効率とタスク命令の有意性の違いについて検討した。
588人の米国からの参加者と680人のGPT-4の反復による4回の事前登録実験では、GPT-4の付加的な変換は人間よりも強い傾向を示した。
減算が比較的効率的であった場合, 減算と減算が等しく効率的であった場合に比べて, 人体では減算が比較的効果的であった。
GPT-4は, 減算がより効率的である場合に, 強い添加バイアスを呈し, 逆の挙動を示した。
タスク命令の有意性については、GPT-4の付加的戦略の使用は、"edit"(中性)ではなく"improve"(陽性)に指示されたときに増大した。
これらの結果は,人間の問題解決におけるバイアスが GPT-4 で増幅され,LLM の挙動がヒトの効率性に基づく戦略と異なることを示している。
このことは、LLMの限界と、現実世界のアプリケーションでそれらを使用する際に注意が必要であることを強調している。
関連論文リスト
- An Empirical Study on Information Extraction using Large Language Models [36.090082785047855]
人間に似た大規模言語モデル(LLM)は多くの自然言語処理(NLP)関連タスクに非常に役立つことが証明されている。
本稿では,GPT-4の情報抽出能力に対する一連の単純なプロンプトベース手法の効果について検討する。
論文 参考訳(メタデータ) (2024-08-31T07:10:16Z) - Can AI Replace Human Subjects? A Large-Scale Replication of Psychological Experiments with LLMs [1.5031024722977635]
GPT-4は76.0パーセントの主効果と47.0パーセントの相互作用効果の再現に成功した。
GPT-4の再現された信頼区間は、元の効果の大きさを含み、ほとんどの再現された効果の大きさは、元の研究の95%の信頼区間を超える。
我々の研究は、心理学研究における強力なツールとしてのLLMの可能性を示しているが、AIによる知見の解釈には注意が必要であることも強調している。
論文 参考訳(メタデータ) (2024-08-29T05:18:50Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent
Self-Evolution [92.84441068115517]
Investigate-Consolidate-Exploit(ICE)は、AIエージェントの適応性と柔軟性を高めるための新しい戦略である。
ICEは、真の自己進化のためのタスク間の知識の伝達を促進する。
XAgentフレームワークに関する我々の実験は、ICEの有効性を示し、API呼び出しを最大80%削減する。
論文 参考訳(メタデータ) (2024-01-25T07:47:49Z) - How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary
Investigation [90.93999543169296]
GPT-4Vは最も先進的な多モード基盤モデルとして機能する。
本研究は, GPT-4Vの動的環境における適応性と一般化能力について, 厳密に評価する。
論文 参考訳(メタデータ) (2023-12-12T16:48:07Z) - Prompt Engineering or Fine Tuning: An Empirical Assessment of Large
Language Models in Automated Software Engineering Tasks [8.223311621898983]
対話型プロンプトを持つ GPT-4 は, 自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善を示した。
完全に自動化されたプロンプトエンジニアリング ループに人間はいない より多くの研究と改善が必要です
論文 参考訳(メタデータ) (2023-10-11T00:21:00Z) - Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文 参考訳(メタデータ) (2023-06-30T09:07:37Z) - An Empirical Study on Information Extraction using Large Language Models [36.090082785047855]
人間に似た大規模言語モデル(LLM)は多くの自然言語処理(NLP)関連タスクに非常に役立つことが証明されている。
本稿では,GPT-4の情報抽出能力に対する一連の単純なプロンプトベース手法の効果について検討する。
論文 参考訳(メタデータ) (2023-05-23T18:17:43Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。