論文の概要: Influence of Solution Efficiency and Valence of Instruction on Additive and Subtractive Solution Strategies in Humans and GPT-4
- arxiv url: http://arxiv.org/abs/2404.16692v1
- Date: Thu, 25 Apr 2024 15:53:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 13:10:51.032477
- Title: Influence of Solution Efficiency and Valence of Instruction on Additive and Subtractive Solution Strategies in Humans and GPT-4
- Title(参考訳): ヒトとGPT-4の添加および減量的解法に及ぼす解効率と指示の妥当性の影響
- Authors: Lydia Uhler, Verena Jordan, Jürgen Buder, Markus Huff, Frank Papenmeier,
- Abstract要約: 本研究では,人間の問題解決行動とOpenAlのGPT-4大言語モデルについて検討した。
実験では、米国から588人、GPT-4モデルの680人の参加者が参加した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We explored the addition bias, a cognitive tendency to prefer adding elements over removing them to alter an initial state or structure, by conducting four preregistered experiments examining the problem-solving behavior of both humans and OpenAl's GPT-4 large language model. The experiments involved 588 participants from the U.S. and 680 iterations of the GPT-4 model. The problem-solving task was either to create symmetry within a grid (Experiments 1 and 3) or to edit a summary (Experiments 2 and 4). As hypothesized, we found that overall, the addition bias was present. Solution efficiency (Experiments 1 and 2) and valence of the instruction (Experiments 3 and 4) played important roles. Human participants were less likely to use additive strategies when subtraction was relatively more efficient than when addition and subtraction were equally efficient. GPT-4 exhibited the opposite behavior, with a strong addition bias when subtraction was more efficient. In terms of instruction valence, GPT-4 was more likely to add words when asked to "improve" compared to "edit", whereas humans did not show this effect. When we looked at the addition bias under different conditions, we found more biased responses for GPT-4 compared to humans. Our findings highlight the importance of considering comparable and sometimes superior subtractive alternatives, as well as reevaluating one's own and particularly the language models' problem-solving behavior.
- Abstract(参考訳): 両人の問題解決行動とOpenAlのGPT-4大言語モデルを用いて,初期状態や構造を変えるために要素を除去するよりも,要素を加えることを優先する認知的傾向である付加バイアスについて検討した。
実験では、米国から588人、GPT-4モデルの680人の参加者が参加した。
問題解決の課題は、グリッド内で対称性を作成すること(実験1と3)、または要約を編集すること(実験2と4)であった。
仮説として、私たちは全体として、追加バイアスが存在することに気付きました。
解の効率(実験1と2)と命令の妥当性(実験3と4)は重要な役割を担った。
減算が比較的効率的であった場合, 減算と減算が等しく効率的であった場合に比べて, 人体では減算が比較的効果的であった。
GPT-4は, 減算がより効率的である場合に, 強い添加バイアスを呈し, 逆の挙動を示した。
命令価の面では、GPT-4は"edit"よりも"improve"を要求されたときに単語を追加する傾向があったが、人間はこの効果を示さなかった。
異なる条件下での添加バイアスを調べたところ、GPT-4の反応は人間に比べてより偏りが強いことがわかった。
本研究は,言語モデルの課題解決行動の再評価とともに,比較的かつ時として優れた抽出代替案を検討することの重要性を強調した。
関連論文リスト
- Identifying and Improving Disability Bias in GAI-Based Resume Screening [10.601677205834324]
我々はChatGPTに、障害に関連するリーダーシップ賞、奨学金、パネルプレゼンテーション、会員シップで強化された同じ履歴書に対する履歴書のランク付けを依頼する。
GPT-4はこれらの拡張CVに対して偏見を示す。
この偏見は、DEIの原則と障害正義に基づいてカスタムGPTをトレーニングすることで、定量的に低減できることを示す。
論文 参考訳(メタデータ) (2024-01-28T17:04:59Z) - Holistic Analysis of Hallucination in GPT-4V(ision): Bias and
Interference Challenges [54.42256219010956]
このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。
偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。
干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
論文 参考訳(メタデータ) (2023-11-06T17:26:59Z) - Towards Understanding Sycophancy in Language Models [49.99654432561934]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - Can large language models provide useful feedback on research papers? A
large-scale empirical analysis [38.905758846360435]
高品質なピアレビューは入手がますます困難になっている。
GPT-4のような大規模言語モデル(LLM)のブレークスルーにより、科学的なフィードバックを得るためにLLMを使うことへの関心が高まっている。
我々はGPT-4を用いた自動パイプラインを作成し、科学論文の全PDFにコメントを提供した。
論文 参考訳(メタデータ) (2023-10-03T04:14:17Z) - Large Language Models on Wikipedia-Style Survey Generation: an
Evaluation in NLP Concepts [21.853957046279533]
大規模言語モデル(LLM)は、様々な一般的なタスクで大きな成功を収めた。
本研究では,コンピュータ科学におけるNLPのニッチ分野に特有な簡潔な調査項目を生成する上で,LCMsの有効性について検討する。
人間の評価スコアとGPTによる評価スコアを比較し,詳細な分析を行った。
論文 参考訳(メタデータ) (2023-08-21T01:32:45Z) - Inductive reasoning in humans and large language models [0.0]
GPT-3.5 と GPT-4 をヒト誘導的推論における古典的問題に適用した。
GPT-3.5は人間の行動の多くの側面を捉えるのに苦労しているが、GPT-4はより成功している。
論文 参考訳(メタデータ) (2023-06-11T00:23:25Z) - An Empirical Analysis of Parameter-Efficient Methods for Debiasing
Pre-Trained Language Models [55.14405248920852]
各種言語モデルとバイアスタイプを用いたプレフィックスチューニング,プロンプトチューニング,アダプタチューニングによる実験を行い,その性能評価を行った。
パラメータ効率のよい手法は、適応調整が常に最も効果的であるジェンダーバイアスを軽減するのに有効であることがわかった。
また、早急なチューニングは、BERTよりもGPT-2に適しており、人種的・宗教的偏見に関しては、人種的・宗教的偏見が低いことが判明した。
論文 参考訳(メタデータ) (2023-06-06T23:56:18Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - Humans in Humans Out: On GPT Converging Toward Common Sense in both
Success and Failure [0.0]
GPT-3, GPT-3.5, GPT-4は多量の人為的テキストで訓練された。
これらの例の59%に対して, GPT-3 は ETR 予測出力の証拠を示した。
GPT-3では18%, GPT-3.5では33%, GPT-4では34%であった。
論文 参考訳(メタデータ) (2023-03-30T10:32:18Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - Cross Pairwise Ranking for Unbiased Item Recommendation [57.71258289870123]
我々はCPR(Cross Pairwise Ranking)という新しい学習パラダイムを開発する。
CPRは、露出メカニズムを知らずに不偏の推奨を達成する。
理論的には、この方法が学習に対するユーザ/イテムの適合性の影響を相殺することを証明する。
論文 参考訳(メタデータ) (2022-04-26T09:20:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。