論文の概要: Is General-Purpose AI Reasoning Sensitive to Data-Induced Cognitive Biases? Dynamic Benchmarking on Typical Software Engineering Dilemmas
- arxiv url: http://arxiv.org/abs/2508.11278v1
- Date: Fri, 15 Aug 2025 07:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.781288
- Title: Is General-Purpose AI Reasoning Sensitive to Data-Induced Cognitive Biases? Dynamic Benchmarking on Typical Software Engineering Dilemmas
- Title(参考訳): 汎用AIは、データ誘発認知バイアスに敏感に反応するか? 典型的なソフトウェアエンジニアリングのジレンマの動的ベンチマーク
- Authors: Francesco Sovrano, Gabriele Dominici, Rita Sevastjanova, Alessandra Stramiglio, Alberto Bacchelli,
- Abstract要約: 汎用AI(GPAI)システムは、人間の非人間性による認知バイアスを軽減するのに役立つ。
GPAIシステム自体に認知バイアスがあるのだろうか?
ソフトウェア工学におけるGPAIにおけるデータ誘発認知バイアスを評価するための最初のベンチマークフレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.582118202259394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human cognitive biases in software engineering can lead to costly errors. While general-purpose AI (GPAI) systems may help mitigate these biases due to their non-human nature, their training on human-generated data raises a critical question: Do GPAI systems themselves exhibit cognitive biases? To investigate this, we present the first dynamic benchmarking framework to evaluate data-induced cognitive biases in GPAI within software engineering workflows. Starting with a seed set of 16 hand-crafted realistic tasks, each featuring one of 8 cognitive biases (e.g., anchoring, framing) and corresponding unbiased variants, we test whether bias-inducing linguistic cues unrelated to task logic can lead GPAI systems from correct to incorrect conclusions. To scale the benchmark and ensure realism, we develop an on-demand augmentation pipeline relying on GPAI systems to generate task variants that preserve bias-inducing cues while varying surface details. This pipeline ensures correctness (88--99% on average, according to human evaluation), promotes diversity, and controls reasoning complexity by leveraging Prolog-based reasoning and LLM-as-a-judge validation. It also verifies that the embedded biases are both harmful and undetectable by logic-based, unbiased reasoners. We evaluate leading GPAI systems (GPT, LLaMA, DeepSeek) and find a consistent tendency to rely on shallow linguistic heuristics over deep reasoning. All systems exhibit cognitive biases (ranging from 5.9% to 35% across types), with bias sensitivity increasing sharply with task complexity (up to 49%), highlighting critical risks in real-world software engineering deployments.
- Abstract(参考訳): ソフトウェアエンジニアリングにおける人間の認知バイアスは、コストのかかるエラーにつながる可能性がある。
汎用AI(GPAI)システムは、非人間的な性質のため、これらのバイアスを軽減するのに役立つかもしれませんが、人為的なデータに対するトレーニングは、重要な疑問を引き起こします。
そこで本研究では,ソフトウェア工学ワークフローにおけるGPAIにおけるデータ誘発認知バイアスを評価するための,初めての動的ベンチマークフレームワークを提案する。
8つの認知バイアス(例えば、アンカー、フレーミング)の1つとそれに対応する非バイアスの変種を特徴とする16個の手作り現実的タスクのシードセットから始め、タスク論理と無関係なバイアス誘発言語的手がかりがGPAIシステムを正しい結論から誤った結論へと導くかどうかを検証した。
ベンチマークのスケールとリアリズムの確保のために,GPAIシステムを利用したオンデマンド拡張パイプラインを開発し,表面の細部を変化させながら偏りを生じさせるタスク変種を生成する。
このパイプラインは、正確性(人間による評価では平均88~99%)を保証し、多様性を促進し、Prologベースの推論とLSM-as-judgeバリデーションを活用して、複雑性を推論する。
また、埋め込みバイアスは、論理ベースの、偏見のない推論者によって有害で検出不可能であることも検証している。
我々はGPAIシステム(GPT,LLaMA,DeepSeek)の評価を行い,深い推論よりも浅い言語的ヒューリスティックに頼りやすい傾向を見出した。
すべてのシステムは認知バイアス(タイプ毎に5.9%から35%)を示し、バイアス感度はタスクの複雑さ(最大49%)とともに急上昇し、現実世界のソフトウェアエンジニアリングデプロイメントにおける重大なリスクを浮き彫りにしている。
関連論文リスト
- Addressing Bias in LLMs: Strategies and Application to Fair AI-based Recruitment [49.81946749379338]
この研究は、トランスフォーマーベースのシステムの能力を分析して、データに存在する人口統計バイアスを学習する。
最終ツールにおける偏りを緩和する手段として,学習パイプラインからの性別情報を削減するためのプライバシー向上フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T15:29:43Z) - Cognitive Debiasing Large Language Models for Decision-Making [71.2409973056137]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。
我々は,自己適応型認知脱バイアス(SACD)という認知脱バイアス手法を提案する。
我々の手法は、3つの逐次的なステップ – バイアス決定、バイアス分析、認知バイアス ― に従うことで、プロンプトにおける潜在的な認知バイアスを反復的に緩和する。
論文 参考訳(メタデータ) (2025-04-05T11:23:05Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Why we need biased AI -- How including cognitive and ethical machine
biases can enhance AI systems [0.0]
学習アルゴリズムにおける人間の認知バイアスの構造的実装について論じる。
倫理的マシン動作を達成するには、フィルタ機構を適用する必要がある。
本論文は、機械バイアスの倫理的重要性を再評価するアイデアを明示的に追求する最初の仮段階である。
論文 参考訳(メタデータ) (2022-03-18T12:39:35Z) - Improving Fairness of AI Systems with Lossless De-biasing [15.039284892391565]
AIシステムのバイアスを緩和して全体的な公正性を高めることが重要な課題となっている。
我々は,不利益グループにおけるデータの不足を対象とする情報損失のない脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2021-05-10T17:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。