Fugu-MT 論文翻訳(概要): Influence of Solution Efficiency and Valence of Instruction on Additive and Subtractive Solution Strategies in Humans and GPT-4

論文の概要: Influence of Solution Efficiency and Valence of Instruction on Additive and Subtractive Solution Strategies in Humans and GPT-4

arxiv url: http://arxiv.org/abs/2404.16692v1
Date: Thu, 25 Apr 2024 15:53:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 13:10:51.032477
Title: Influence of Solution Efficiency and Valence of Instruction on Additive and Subtractive Solution Strategies in Humans and GPT-4
Title（参考訳）: ヒトとGPT-4の添加および減量的解法に及ぼす解効率と指示の妥当性の影響
Authors: Lydia Uhler, Verena Jordan, Jürgen Buder, Markus Huff, Frank Papenmeier,
Abstract要約: 本研究では,人間の問題解決行動とOpenAlのGPT-4大言語モデルについて検討した。実験では、米国から588人、GPT-4モデルの680人の参加者が参加した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We explored the addition bias, a cognitive tendency to prefer adding elements over removing them to alter an initial state or structure, by conducting four preregistered experiments examining the problem-solving behavior of both humans and OpenAl's GPT-4 large language model. The experiments involved 588 participants from the U.S. and 680 iterations of the GPT-4 model. The problem-solving task was either to create symmetry within a grid (Experiments 1 and 3) or to edit a summary (Experiments 2 and 4). As hypothesized, we found that overall, the addition bias was present. Solution efficiency (Experiments 1 and 2) and valence of the instruction (Experiments 3 and 4) played important roles. Human participants were less likely to use additive strategies when subtraction was relatively more efficient than when addition and subtraction were equally efficient. GPT-4 exhibited the opposite behavior, with a strong addition bias when subtraction was more efficient. In terms of instruction valence, GPT-4 was more likely to add words when asked to "improve" compared to "edit", whereas humans did not show this effect. When we looked at the addition bias under different conditions, we found more biased responses for GPT-4 compared to humans. Our findings highlight the importance of considering comparable and sometimes superior subtractive alternatives, as well as reevaluating one's own and particularly the language models' problem-solving behavior.
Abstract（参考訳）: 両人の問題解決行動とOpenAlのGPT-4大言語モデルを用いて,初期状態や構造を変えるために要素を除去するよりも,要素を加えることを優先する認知的傾向である付加バイアスについて検討した。実験では、米国から588人、GPT-4モデルの680人の参加者が参加した。問題解決の課題は、グリッド内で対称性を作成すること(実験1と3)、または要約を編集すること(実験2と4)であった。仮説として、私たちは全体として、追加バイアスが存在することに気付きました。解の効率(実験1と2)と命令の妥当性(実験3と4)は重要な役割を担った。減算が比較的効率的であった場合, 減算と減算が等しく効率的であった場合に比べて, 人体では減算が比較的効果的であった。 GPT-4は, 減算がより効率的である場合に, 強い添加バイアスを呈し, 逆の挙動を示した。命令価の面では、GPT-4は"edit"よりも"improve"を要求されたときに単語を追加する傾向があったが、人間はこの効果を示さなかった。異なる条件下での添加バイアスを調べたところ、GPT-4の反応は人間に比べてより偏りが強いことがわかった。本研究は,言語モデルの課題解決行動の再評価とともに,比較的かつ時として優れた抽出代替案を検討することの重要性を強調した。

関連論文リスト

Exploring Expert Failures Improves LLM Agent Tuning [74.0772570556016]
本稿では,失敗した専門家の軌道から有益な行動を識別する専門的失敗の探索(EEF)を提案する。 EEFは、未解決のいくつかのサブタスクをうまく解決し、エージェントチューニング性能を改善する。
論文参考訳（メタデータ） (2025-04-17T17:53:54Z)
Assessing the Reliability and Validity of GPT-4 in Annotating Emotion Appraisal Ratings [0.6008132390640295]
本稿では, GPT-4を, 21種類の評価評価の読み手として, 異なるプロンプト設定で検討する。その結果, GPT-4はヒトのアノテータに近づいたり, わずかに良く機能する効果的なリーダ・アノテータであることがわかった。
論文参考訳（メタデータ） (2025-03-21T06:35:49Z)
Exploring Multimodal Perception in Large Language Models Through Perceptual Strength Ratings [2.539879170527831]
本研究は, GPT-3.5, GPT-4o, GPT-4o, GPT-4o-miniを比較し, 接地および言語的推論に対するマルチモーダル入力の影響を強調した。 GPT-4 と GPT-4o は、人間による評価と、より小さなモデルに対する顕著な進歩を示す。 GPT-4oはGPT-4よりも優れた接地率を示しなかった。
論文参考訳（メタデータ） (2025-03-10T06:52:35Z)
An Empirical Study on Information Extraction using Large Language Models [36.090082785047855]
人間に似た大規模言語モデル(LLM)は多くの自然言語処理(NLP)関連タスクに非常に役立つことが証明されている。本稿では,GPT-4の情報抽出能力に対する一連の単純なプロンプトベース手法の効果について検討する。
論文参考訳（メタデータ） (2024-08-31T07:10:16Z)
From Text to Emotion: Unveiling the Emotion Annotation Capabilities of LLMs [12.199629860735195]
我々は、GPT4と教師付きモデルと、人間のアノテーションとの一致、人間の知覚の一致、モデルトレーニングへの影響の3つの側面を比較した。 GPT-4の性能を過小評価する上で,人間アノテーションを基本事実として利用する一般的な指標が有効であることがわかった。
論文参考訳（メタデータ） (2024-08-30T05:50:15Z)
Can AI Replace Human Subjects? A Large-Scale Replication of Psychological Experiments with LLMs [1.5031024722977635]
GPT-4は76.0パーセントの主効果と47.0パーセントの相互作用効果の再現に成功した。 GPT-4の再現された信頼区間は、元の効果の大きさを含み、ほとんどの再現された効果の大きさは、元の研究の95%の信頼区間を超える。我々の研究は、心理学研究における強力なツールとしてのLLMの可能性を示しているが、AIによる知見の解釈には注意が必要であることも強調している。
論文参考訳（メタデータ） (2024-08-29T05:18:50Z)
Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。 GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文参考訳（メタデータ） (2024-07-05T12:30:02Z)
Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent Self-Evolution [92.84441068115517]
Investigate-Consolidate-Exploit(ICE)は、AIエージェントの適応性と柔軟性を高めるための新しい戦略である。 ICEは、真の自己進化のためのタスク間の知識の伝達を促進する。 XAgentフレームワークに関する我々の実験は、ICEの有効性を示し、API呼び出しを最大80%削減する。
論文参考訳（メタデータ） (2024-01-25T07:47:49Z)
How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation [90.93999543169296]
GPT-4Vは最も先進的な多モード基盤モデルとして機能する。本研究は, GPT-4Vの動的環境における適応性と一般化能力について, 厳密に評価する。
論文参考訳（メタデータ） (2023-12-12T16:48:07Z)
Can large language models provide useful feedback on research papers? A large-scale empirical analysis [38.905758846360435]
高品質なピアレビューは入手がますます困難になっている。 GPT-4のような大規模言語モデル(LLM)のブレークスルーにより、科学的なフィードバックを得るためにLLMを使うことへの関心が高まっている。我々はGPT-4を用いた自動パイプラインを作成し、科学論文の全PDFにコメントを提供した。
論文参考訳（メタデータ） (2023-10-03T04:14:17Z)
Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias [57.42417061979399]
近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討する。以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
論文参考訳（メタデータ） (2023-08-01T01:39:25Z)
Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文参考訳（メタデータ） (2023-06-30T09:07:37Z)
An Empirical Study on Information Extraction using Large Language Models [36.090082785047855]
人間に似た大規模言語モデル(LLM)は多くの自然言語処理(NLP)関連タスクに非常に役立つことが証明されている。本稿では,GPT-4の情報抽出能力に対する一連の単純なプロンプトベース手法の効果について検討する。
論文参考訳（メタデータ） (2023-05-23T18:17:43Z)
Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (2023-03-22T16:51:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。