論文の概要: Evaluating Implicit Biases in LLM Reasoning through Logic Grid Puzzles
- arxiv url: http://arxiv.org/abs/2511.06160v1
- Date: Sat, 08 Nov 2025 22:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.78467
- Title: Evaluating Implicit Biases in LLM Reasoning through Logic Grid Puzzles
- Title(参考訳): 論理格子ノズルによるLLM推論におけるインプリシトビアーゼの評価
- Authors: Fatima Jahara, Mark Dredze, Sharon Levy,
- Abstract要約: PRIME (Puzzle Reasoning for Implicit Biases in Model Evaluation) は論理グリッドパズルを用いて、論理的推論と意思決定に対する社会的ステレオタイプの影響を体系的に調査する。
論理パズルを用いることで、自動生成と検証が可能となり、複雑さや偏りのある設定における可変性が向上する。
- 参考スコア(独自算出の注目度): 16.179739470832327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent safety guardrails effectively suppress overtly biased outputs, subtler forms of social bias emerge during complex logical reasoning tasks that evade current evaluation benchmarks. To fill this gap, we introduce a new evaluation framework, PRIME (Puzzle Reasoning for Implicit Biases in Model Evaluation), that uses logic grid puzzles to systematically probe the influence of social stereotypes on logical reasoning and decision making in LLMs. Our use of logic puzzles enables automatic generation and verification, as well as variability in complexity and biased settings. PRIME includes stereotypical, anti-stereotypical, and neutral puzzle variants generated from a shared puzzle structure, allowing for controlled and fine-grained comparisons. We evaluate multiple model families across puzzle sizes and test the effectiveness of prompt-based mitigation strategies. Focusing our experiments on gender stereotypes, our findings highlight that models consistently reason more accurately when solutions align with stereotypical associations. This demonstrates the significance of PRIME for diagnosing and quantifying social biases perpetuated in the deductive reasoning of LLMs, where fairness is critical.
- Abstract(参考訳): 最近の安全ガードレールは、過度に偏った出力を効果的に抑制するが、現在の評価ベンチマークを避ける複雑な論理的推論タスクの間に、より微妙な形の社会的偏見が出現する。
このギャップを埋めるために、論理グリッドパズルを用いてLLMにおける論理的推論と意思決定に対する社会的ステレオタイプの影響を体系的に調査するPRIME(Puzzle Reasoning for Implicit Biases in Model Evaluation)を導入する。
論理パズルを用いることで、自動生成と検証が可能となり、複雑さや偏りのある設定における可変性が向上する。
PRIMEは、共有パズル構造から生成されるステレオタイプ、アンチステレオタイプ、中立パズルの変種を含み、制御され、きめ細かい比較を可能にする。
パズルのサイズをまたいだモデルファミリを複数評価し,プロンプトベースの緩和戦略の有効性を検証した。
本研究は, ジェンダーステレオタイプに焦点をあてた結果, 解がステレオタイプ的関連と一致する場合, モデルがより正確に推論できることが示唆された。
このことは、公平性が不可欠であるLLMの誘因的推論において、社会バイアスの診断と定量化にPRIMEが重要であることを示す。
関連論文リスト
- VERGE: Formal Refinement and Guidance Engine for Verifiable LLM Reasoning [4.3414302048068745]
本稿では,大規模言語モデルとSMTソルバを組み合わせたニューロシンボリック・フレームワークを提案する。
本稿では,(1)形式的意味的等価性チェックによるマルチモデルコンセンサス,(2)適切な検証戦略に異なるクレーム型を指示するセマンティックルーティング,(3)最小補正サブセットによる正確な論理的エラーローカライゼーション,の3点を紹介する。
GPT-OSS-120Bモデルでは、VERGEはシングルパスアプローチと比較して、一連の推論ベンチマークにおいて平均18.7%の性能向上を示す。
論文 参考訳(メタデータ) (2026-01-27T20:59:11Z) - PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection [33.98107848014898]
PRISM-Benchはマルチモーダル大言語モデル(MLLM)を評価するために設計されたパズルに基づく視覚的課題のベンチマークである。
PRISM-Benchは、最終回答精度のみを測定する以前の評価とは異なり、診断タスクを導入している: 視覚パズルと、正確に1つのエラーを含むステップバイステップの連鎖が与えられた場合、モデルは最初の誤ったステップを特定する必要がある。
PRISM-Benchのパズルは多段階の記号的、幾何学的、類推的推論を必要とし、表面的なパターンマッチングに基づくショートカットに抵抗する。
論文 参考訳(メタデータ) (2025-10-27T17:57:52Z) - DivLogicEval: A Framework for Benchmarking Logical Reasoning Evaluation in Large Language Models [58.439517684779936]
本稿では,多種多様な文からなる自然文からなる古典論理ベンチマークDivLogicEvalを提案する。
また,より信頼性の高い評価を実現するために,大規模言語モデルに固有のバイアスやランダム性の影響を緩和する新たな評価指標を導入する。
論文 参考訳(メタデータ) (2025-09-19T04:40:46Z) - LogicPuzzleRL: Cultivating Robust Mathematical Reasoning in LLMs via Reinforcement Learning [29.047063129464494]
大規模言語モデル(LLM)は多くの教師付きタスクで優れるが、よくなじみのない設定で構造化された推論に悩まされる。
この矛盾は、標準的な微調整パイプラインが汎用的な思考戦略を育むのではなく、狭く、ドメイン固有のものを注入する可能性があることを示唆している。
本研究では,7つのカスタム論理パズルの組による強化学習を通じて,LLMを微調整する「学習のための遊び」フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T09:40:47Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z) - ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。
FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。
FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文 参考訳(メタデータ) (2024-12-12T09:01:18Z) - On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。
1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。
微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文 参考訳(メタデータ) (2024-10-30T15:31:54Z) - Reversal of Thought: Enhancing Large Language Models with Preference-Guided Reverse Reasoning Warm-up [9.42385235462794]
大規模言語モデル(LLM)は、推論タスクにおいて顕著な性能を示すが、数学的および複雑な論理的推論において制限に直面している。
バッチ推論前のウォームアップフェーズにおいて,LLMの論理的推論能力を高めるために,Reversal of Thought (RoT)を提案する。
RoT は Preference-Guided Reverse Reasoning warm-up 戦略を利用している。
論文 参考訳(メタデータ) (2024-10-16T07:44:28Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。