論文の概要: Mitigating Prompt-Induced Cognitive Biases in General-Purpose AI for Software Engineering
- arxiv url: http://arxiv.org/abs/2604.16756v1
- Date: Sat, 18 Apr 2026 00:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.81683
- Title: Mitigating Prompt-Induced Cognitive Biases in General-Purpose AI for Software Engineering
- Title(参考訳): ソフトウェア工学のための汎用AIにおけるプロンプト誘発認知バイアスの緩和
- Authors: Francesco Sovrano, Gabriele Dominici, Alberto Bacchelli,
- Abstract要約: ソフトウェアエンジニアリング(SE)意思決定サポート(問題文と要件が自然言語である)では、小さなフレーズのシフトがGPAIモデルを最適化下決定に向けてプッシュすることができる。
同じSEジレンマの偏りと偏りのないバージョンをペア化するSEのベンチマークである PROBE-SWE を用いてこれを研究する。
バイアス感受性の統計的に有意な低下は, バイアスごとにみられない。
- 参考スコア(独自算出の注目度): 7.619404259039282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt-induced cognitive biases are changes in a general-purpose AI (GPAI) system's decisions caused solely by biased wording in the input (e.g., framing, anchors), not task logic. In software engineering (SE) decision support (where problem statements and requirements are natural language) small phrasing shifts (e.g., popularity hints or outcome reveals) can push GPAI models toward suboptimal decisions. We study this with PROBE-SWE, a dynamic benchmark for SE that pairs biased and unbiased versions of the same SE dilemmas, controls for logic and difficulty, and targets eight SE-relevant biases (anchoring, availability, bandwagon, confirmation, framing, hindsight, hyperbolic discounting, overconfidence). We ask whether prompt engineering mitigates bias sensitivity in practice, focusing on actionable techniques that practitioners can apply off-the-shelf in real environments. Testing common strategies (e.g., chain-of-thought, self-debiasing) on cost-effective GPAI systems, we find no statistically significant reductions in bias sensitivity on a per-bias basis. We then adopt a Prolog-style view of the reasoning process: solving SE dilemmas requires making explicit any background axioms and inference assumptions (i.e., SE best practices) that are usually implicit in the prompt. So, we hypothesize that bias-inducing features short-circuit assumptions elicitation, pushing GPAI models toward biased shortcuts. Building on this, we introduce an end-to-end method that elicits best practices and injects axiomatic reasoning cues into the prompt before answering, reducing overall bias sensitivity by 51% on average (p < .001). Finally, we report a thematic analysis that surfaces linguistic patterns associated with heightened bias sensitivity, clarifying when GPAI use is less advisable for SE decision support and where to focus future countermeasures.
- Abstract(参考訳): プロンプトによる認知バイアス(Prompt-induced Cognitive biases)とは、タスクロジックではなく、入力(例えば、フレーミング、アンカー)のバイアスドワードによってのみ引き起こされる汎用AI(GPAI)システムにおける変化である。
ソフトウェアエンジニアリング(SE)意思決定サポート(問題文と要件が自然言語である)では、小さなフレーズのシフト(人気ヒントや結果の露呈など)が、GPAIモデルを最適以下の決定へと押し上げます。
我々は、SEの動的ベンチマークである PROBE-SWE を用いて、同じSEジレンマの偏りと偏りのないバージョンをペアリングし、論理と難易度を制御し、8つのSE関連バイアス(アンコリング、アベイラビリティー、バンドワゴン、確認、フレーミング、後見、双曲割引、過信)をターゲットとした。
我々は,実践者が現実の環境でオフ・ザ・シェルフを適用できる行動可能な技術に焦点をあてて,迅速な工学が実践におけるバイアス感度を緩和するかどうかを問う。
GPAIシステムにおける共通戦略(例えば、チェーン・オブ・シンク、自己バイアス)をテストすると、偏差感度の統計的に有意な低下は見つからない。
SEジレンマを解くには、通常、プロンプトの中で暗黙的な背景公理と推論仮定(SEベストプラクティス)を明確にする必要がある。
そこで我々は, GPAIモデルをバイアスショートカットに推し進め, 短絡仮説の導出を仮定した。
これに基づいて,ベストプラクティスを取り入れ,回答前のプロンプトに公理的推論キューを注入するエンド・ツー・エンド手法を導入し,全体のバイアス感度を平均で51%低減する(p < .001)。
最後に, GPAI の使用がSE決定支援に適さない場合, 今後の対策に着目すべき点を明らかにするため, バイアス感度の向上に関連する言語パターンを探索するテーマ分析を行った。
関連論文リスト
- Making Bias Non-Predictive: Training Robust LLM Judges via Reinforcement Learning [91.8584139564909]
大規模言語モデル(LLM)は、ますます自動化された審査員として機能するが、認知バイアスの影響を受けやすいままである。
本稿では,重要原則に基づく強化学習フレームワークである疫学独立訓練(EIT)を提案する。
EITはバランスの取れた競合戦略を通じてこれを運用します。
論文 参考訳(メタデータ) (2026-02-02T01:43:48Z) - Is General-Purpose AI Reasoning Sensitive to Data-Induced Cognitive Biases? Dynamic Benchmarking on Typical Software Engineering Dilemmas [47.582118202259394]
汎用AI(GPAI)システムは、人間の非人間性による認知バイアスを軽減するのに役立つ。
GPAIシステム自体に認知バイアスがあるのだろうか?
ソフトウェア工学におけるGPAIにおけるデータ誘発認知バイアスを評価するための最初のベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-15T07:29:46Z) - Self-Adaptive Cognitive Debiasing for Large Language Models in Decision-Making [71.71796367760112]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。
我々は,自己適応型認知脱バイアス(SACD)という認知脱バイアス手法を提案する。
オープンウェイトとクローズドウェイトの両方を用いた金融・医療・法的意思決定タスクにおけるSACDの評価を行った。
論文 参考訳(メタデータ) (2025-04-05T11:23:05Z) - Chain of Thought Still Thinks Fast: APriCoT Helps with Thinking Slow [0.0]
我々は、Agnostically Primed CoT (APriCoT)による対物プロンプトを導入する。
APriCoTは、全体的な精度を改善しつつ、ベースレート確率の影響を効果的に低減する。
以上の結果から,CoTだけでは提供できないような緩やかな思考プロセスが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-08-16T10:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。