Fugu-MT 論文翻訳(概要): Influence of Solution Efficiency and Valence of Instruction on Additive and Subtractive Solution Strategies in Humans and GPT-4

論文の概要: Influence of Solution Efficiency and Valence of Instruction on Additive and Subtractive Solution Strategies in Humans and GPT-4

arxiv url: http://arxiv.org/abs/2404.16692v2
Date: Fri, 11 Oct 2024 09:42:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.068171
Title: Influence of Solution Efficiency and Valence of Instruction on Additive and Subtractive Solution Strategies in Humans and GPT-4
Title（参考訳）: ヒトとGPT-4の添加および減量的解法に及ぼす解効率と指示の妥当性の影響
Authors: Lydia Uhler, Verena Jordan, Jürgen Buder, Markus Huff, Frank Papenmeier,
Abstract要約: 本研究では,空間的タスクと言語的タスクの双方において,人間とGPT-4の問題解決を比較した。減算が比較的効率的であった場合, 減算と減算が等しく効率的であった場合に比べて, 人体では減算が比較的効果的であった。 GPT-4は, 減算がより効率的である場合に, 強い添加バイアスを呈し, 逆の挙動を示した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Generative artificial intelligences, especially large language models (LLMs), are increasingly being used, necessitating transparency about their capabilities. While prior studies have shown addition biases in humans (Adams et al., 2021) and OpenAI's GPT-3 (Winter et al., 2023), this study extends the research by comparing human and GPT-4 problem-solving across both spatial and linguistic tasks, with variations in solution efficiency and valence of task instruction. Four preregistered experiments with 588 participants from the U.S. and 680 GPT-4 iterations revealed a stronger tendency towards additive transformations in GPT-4 than in humans. Human participants were less likely to use additive strategies when subtraction was relatively more efficient than when addition and subtraction were equally efficient. GPT-4 exhibited the opposite behavior, with a strong addition bias when subtraction was more efficient. In terms of valence of task instruction, GPT-4's use of additive strategies increased when instructed to "improve" (positive valence) rather than "edit" (neutral valence). These findings demonstrate that biases in human problem-solving are amplified in the outputs of GPT-4, and that LLM's solution strategies differ from human efficiency-based strategies. This highlights the evolving limitations of LLMs and the need for caution when using them in real-world applications.
Abstract（参考訳）: 生成的人工知能、特に大規模言語モデル(LLM)は、その能力に関する透明性を必要とするものが増えつつある。 Adams et al , 2021) と OpenAI の GPT-3 (Winter et al , 2023) に有意な差が認められたが, 本研究は, 空間的および言語的タスク間での GPT-4 問題の解法を比較し, 解法効率とタスク命令の有意性の違いについて検討した。 588人の米国からの参加者と680人のGPT-4の反復による4回の事前登録実験では、GPT-4の付加的な変換は人間よりも強い傾向を示した。減算が比較的効率的であった場合, 減算と減算が等しく効率的であった場合に比べて, 人体では減算が比較的効果的であった。 GPT-4は, 減算がより効率的である場合に, 強い添加バイアスを呈し, 逆の挙動を示した。タスク命令の有意性に関して、GPT-4の付加的戦略の使用は、"edit"(中性価)ではなく"improve"(肯定的価)に指示されたときに増加した。これらの結果から, GPT-4の出力には人間の問題解決のバイアスが増幅され, LLMの解法戦略と人間の効率性に基づく解法戦略の相違が示唆された。このことは、LLMの進化する限界と、現実のアプリケーションでそれらを使用する際に注意が必要であることを強調している。

関連論文リスト

Exploring Expert Failures Improves LLM Agent Tuning [74.0772570556016]
本稿では,失敗した専門家の軌道から有益な行動を識別する専門的失敗の探索(EEF)を提案する。 EEFは、未解決のいくつかのサブタスクをうまく解決し、エージェントチューニング性能を改善する。
論文参考訳（メタデータ） (2025-04-17T17:53:54Z)
Assessing the Reliability and Validity of GPT-4 in Annotating Emotion Appraisal Ratings [0.6008132390640295]
本稿では, GPT-4を, 21種類の評価評価の読み手として, 異なるプロンプト設定で検討する。その結果, GPT-4はヒトのアノテータに近づいたり, わずかに良く機能する効果的なリーダ・アノテータであることがわかった。
論文参考訳（メタデータ） (2025-03-21T06:35:49Z)
Exploring Multimodal Perception in Large Language Models Through Perceptual Strength Ratings [2.539879170527831]
本研究は, GPT-3.5, GPT-4o, GPT-4o, GPT-4o-miniを比較し, 接地および言語的推論に対するマルチモーダル入力の影響を強調した。 GPT-4 と GPT-4o は、人間による評価と、より小さなモデルに対する顕著な進歩を示す。 GPT-4oはGPT-4よりも優れた接地率を示しなかった。
論文参考訳（メタデータ） (2025-03-10T06:52:35Z)
An Empirical Study on Information Extraction using Large Language Models [36.090082785047855]
人間に似た大規模言語モデル(LLM)は多くの自然言語処理(NLP)関連タスクに非常に役立つことが証明されている。本稿では,GPT-4の情報抽出能力に対する一連の単純なプロンプトベース手法の効果について検討する。
論文参考訳（メタデータ） (2024-08-31T07:10:16Z)
From Text to Emotion: Unveiling the Emotion Annotation Capabilities of LLMs [12.199629860735195]
我々は、GPT4と教師付きモデルと、人間のアノテーションとの一致、人間の知覚の一致、モデルトレーニングへの影響の3つの側面を比較した。 GPT-4の性能を過小評価する上で,人間アノテーションを基本事実として利用する一般的な指標が有効であることがわかった。
論文参考訳（メタデータ） (2024-08-30T05:50:15Z)
Can AI Replace Human Subjects? A Large-Scale Replication of Psychological Experiments with LLMs [1.5031024722977635]
GPT-4は76.0パーセントの主効果と47.0パーセントの相互作用効果の再現に成功した。 GPT-4の再現された信頼区間は、元の効果の大きさを含み、ほとんどの再現された効果の大きさは、元の研究の95%の信頼区間を超える。我々の研究は、心理学研究における強力なツールとしてのLLMの可能性を示しているが、AIによる知見の解釈には注意が必要であることも強調している。
論文参考訳（メタデータ） (2024-08-29T05:18:50Z)
Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。 GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文参考訳（メタデータ） (2024-07-05T12:30:02Z)
Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent Self-Evolution [92.84441068115517]
Investigate-Consolidate-Exploit(ICE)は、AIエージェントの適応性と柔軟性を高めるための新しい戦略である。 ICEは、真の自己進化のためのタスク間の知識の伝達を促進する。 XAgentフレームワークに関する我々の実験は、ICEの有効性を示し、API呼び出しを最大80%削減する。
論文参考訳（メタデータ） (2024-01-25T07:47:49Z)
How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation [90.93999543169296]
GPT-4Vは最も先進的な多モード基盤モデルとして機能する。本研究は, GPT-4Vの動的環境における適応性と一般化能力について, 厳密に評価する。
論文参考訳（メタデータ） (2023-12-12T16:48:07Z)
Can large language models provide useful feedback on research papers? A large-scale empirical analysis [38.905758846360435]
高品質なピアレビューは入手がますます困難になっている。 GPT-4のような大規模言語モデル(LLM)のブレークスルーにより、科学的なフィードバックを得るためにLLMを使うことへの関心が高まっている。我々はGPT-4を用いた自動パイプラインを作成し、科学論文の全PDFにコメントを提供した。
論文参考訳（メタデータ） (2023-10-03T04:14:17Z)
Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias [57.42417061979399]
近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討する。以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
論文参考訳（メタデータ） (2023-08-01T01:39:25Z)
Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文参考訳（メタデータ） (2023-06-30T09:07:37Z)
An Empirical Study on Information Extraction using Large Language Models [36.090082785047855]
人間に似た大規模言語モデル(LLM)は多くの自然言語処理(NLP)関連タスクに非常に役立つことが証明されている。本稿では,GPT-4の情報抽出能力に対する一連の単純なプロンプトベース手法の効果について検討する。
論文参考訳（メタデータ） (2023-05-23T18:17:43Z)
Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (2023-03-22T16:51:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。