論文の概要: Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects
- arxiv url: http://arxiv.org/abs/2603.10016v1
- Date: Sat, 21 Feb 2026 02:29:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.570408
- Title: Assessing Cognitive Biases in LLMs for Judicial Decision Support: Virtuous Victim and Halo Effects
- Title(参考訳): 司法判断支援のためのLCMにおける認知バイアスの評価 : 暴力的被害者とハロ効果
- Authors: Sierra S. Liu,
- Abstract要約: 我々は,大規模言語モデル (LLM) が人間のような認知バイアスを呈するかどうかを検討する。
最も関係の深い2つのバイアスが選択された: 悪質な犠牲者効果(VVE)、隣り合う同意があるときにその減少に重きを置き、権威に基づくハロ効果(占領、会社、資格)である。
我々の研究は、VVEが大きいこと、隣接するコンテンツに統計的に有意なペナルティがないこと、そしてハロ効果が人間に比べてわずかに減少することを発見した。
- 参考スコア(独自算出の注目度): 0.11603243575080534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate whether large language models (LLMs) display human-like cognitive biases, focusing on potential implications for assistance in judicial sentencing, a decision-making system where fairness is paramount. Two of the most relevant biases were chosen: the virtuous victim effect (VVE), with emphasis given to its reduction when adjacent consent is present, and prestige-based halo effects (occupation, company, and credentials). Using vignettes that were altered from prior literature to avoid LLMs recalling from their training data, we isolate each manipulation by holding all other details consistent, then measuring the percentage difference in outcomes. Five models were evaluated as representative LLMs in independent multi-run trials per condition (ChatGPT 5 Instant, ChatGPT 5 Thinking, DeepSeek V3.1, Claude Sonnet 4, Gemini 2.5 Flash). Our research discovers that there is larger VVE, there is no statistically significant penalty for adjacent-consent, and the halo effect is slightly reduced when compared to humans, with an exception for credential based prestige, which had a large reduction. Despite the variation across different models and outputs restricting current judicial usage, there were modest improvements compared to human benchmarks.
- Abstract(参考訳): 本研究では, 大規模言語モデル (LLM) が人間のような認知バイアスを呈するかどうかを考察し, 公平性が最優先される意思決定システムである司法判決の助成に寄与する可能性に着目した。
最も関係の深い2つのバイアスが選択された: 悪質な犠牲者効果(VVE)、隣り合う同意があるときにその減少に重きを置き、権威に基づくハロ効果(占領、会社、資格)である。
従来の文献から変化したヴィグネットを用いて、トレーニングデータからLLMをリコールするのを避けることで、他のすべての詳細を一貫性を持って保持し、結果のパーセンテージを計測することで、それぞれの操作を分離する。
独立したマルチラン試験(ChatGPT 5 Instant、ChatGPT 5 Thinking、DeepSeek V3.1、Claude Sonnet 4、Gemini 2.5 Flash)において5つのモデルが評価された。
我々の研究は、VVEが大きいこと、隣接するコンテンツに統計的に有意なペナルティがないこと、そしてハロ効果が人間に比べてわずかに減少していること、そして、信用に基づく威信は、大幅に低下した。
様々なモデルやアウトプットが現在の司法利用を制限するにもかかわらず、人間のベンチマークと比べて微妙な改善があった。
関連論文リスト
- Gender Bias in LLMs: Preliminary Evidence from Shared Parenting Scenario in Czech Family Law [0.0]
本研究では,先行するLarge Language Models (LLM) が,現実的な家族法シナリオに対する性別バイアスを示すか否かを検討する。
チェコの家族法に基づく専門的な離婚シナリオを提示し、最先端のLPMであるGPT-5 nano、Claude Haiku 4.5、Gemini 2.5 Flash、Llama 3.3の4つを評価した。
予備的な結果は、モデル間の差異を強調し、いくつかのシステムによって生成された結果における性別に依存したパターンを提案する。
論文 参考訳(メタデータ) (2026-01-09T15:55:03Z) - Self-Improving VLM Judges Without Human Annotations [74.29324865147838]
自己合成データのみを用いて,人間の好みのアノテーションを使わずにVLM判断モデルを自己学習する枠組みを提案する。
提案手法は,Llama-3.2-11Bマルチモーダル判定を0.38から0.51に改善する。
これらの注釈のない結果の全体的な強みは、VLM能力の急速な向上とともに進化する将来の自己判断の可能性を示している。
論文 参考訳(メタデータ) (2025-12-02T20:52:19Z) - The Silent Judge: Unacknowledged Shortcut Bias in LLM-as-a-Judge [17.555073770285095]
大規模言語モデル(LLM)は、要約、対話、創造的執筆といったタスクにおいてシステム出力を評価する自動判断器として、ますます多くデプロイされている。
提案手法では,現行のLLM審査員は,プロンプトに導入したショートカットに頼って,両方のカウントでフェールすることを示す。
論文 参考訳(メタデータ) (2025-09-30T10:48:08Z) - Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - Cognitive Biases in Large Language Models: A Survey and Mitigation Experiments [24.15688619889342]
大規模言語モデル(LLM)は、人間によって書かれた大きなコーパスで訓練され、様々なタスクで高いパフォーマンスを示す。
人間は認知バイアスの影響を受けやすいため、LSMはこれらのバイアスに影響され、不合理な意思決定につながる。
論文 参考訳(メタデータ) (2024-11-30T02:37:59Z) - MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation? [59.7772329962047]
MJ-Benchは、マルチモーダル・ジャッジを評価するために、包括的な選好データセットを組み込んだ新しいベンチマークである。
具体的には、より小型のCLIPベースのスコアリングモデル、オープンソースのVLM、オープンソースのVLMなど、様々なマルチモーダル・ジャッジを評価する。
実験の結果、オープンソースのVLMは一般的にフィードバックが良く、GPT-4oは他の審査員を平均上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-05T20:03:16Z) - Can Many-Shot In-Context Learning Help LLMs as Evaluators? A Preliminary Empirical Study [19.461541208547136]
本稿では,文脈内サンプル数の増加が評価結果の一貫性と品質に及ぼす影響について検討する。
GPT-4oのような先進LLMは、ゼロショットや少数ショットのレギュレーションよりも多ショットのレギュレーションにおいて優れた性能を示すことを示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-06-17T15:11:58Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。