論文の概要: COFT: Counterfactual-Conformal Decoding for Fair Chain-of-Thought Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.30641v1
- Date: Thu, 28 May 2026 22:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.279019
- Title: COFT: Counterfactual-Conformal Decoding for Fair Chain-of-Thought Reasoning in Large Language Models
- Title(参考訳): COFT:大規模言語モデルにおけるフェアチェイン・オブ・ソート推論のための偽コンフォーマルデコーディング
- Authors: Arya Fayyazi, Mehdi Kamal, Massoud Pedram,
- Abstract要約: トークンレベルのフェアネス制御をデコード時に適用する,トレーニング不要な復号法であるCOFTを提案する。
我々は、COFTを6つのモデルと複数のバイアスベンチマークで評価する。
- 参考スコア(独自算出の注目度): 6.635891193153256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can reveal and amplify societal biases during chain-of-thought (CoT) generation. We present COFT (Chain of Fair Thought), a training-free decoding method that applies token-level fairness control at decode time, with distribution-free marginal validity guarantees (under exchangeability) for any frozen causal language model. COFT operates in three stages. First, it creates a masked counterfactual prompt by replacing sensitive spans with neutral tokens. Second, it compares the factual and masked logit distributions through lightweight logit fusion to attenuate attribute-driven biases. Third, it uses dual-branch split-conformal calibration to certify per-step candidate token sets at a user-chosen risk level. We evaluate COFT across six models and multiple bias benchmarks. Our method reduces standard bias metrics by 30-55% (median 38%) while preserving task utility and language quality. Reasoning accuracies remain unchanged within run-to-run noise margins. The computational overhead is modest, equivalent to one additional cached forward pass (<=11%). COFT offers a clear, auditable path to safer CoT generation with significant bias reduction, negligible utility loss, and no requirement for retraining, auxiliary classifiers, or weight access.
- Abstract(参考訳): 大型言語モデル(LLM)は、チェーン・オブ・ソート(CoT)生成中に社会的バイアスを明らかにし、増幅することができる。
我々は,任意の凍結因果言語モデルに対して,分布自由な辺縁妥当性保証(交換性の下で)を備えた,トークンレベルフェアネス制御をデコード時に適用する訓練自由復号法であるCOFT(Chain of Fair Thought)を提案する。
COFTは3つの段階に分かれている。
まず、敏感なスパンを中性トークンに置き換えることで、マスクされた偽造のプロンプトを生成する。
第二に、軽量なロジット融合を通じて事実とマスキングされたロジット分布を比較し、属性駆動バイアスを減衰させる。
第3に、二重分岐分割整形校正を使用して、ステップごとの候補トークンセットをユーザ・センサ・リスクレベルで認証する。
我々は、COFTを6つのモデルと複数のバイアスベンチマークで評価する。
本手法は,タスクユーティリティと言語品質を維持しつつ,標準バイアスの指標を30~55%(中間38%)削減する。
推論の精度は、実行時から実行時までのノイズマージンで変化しない。
計算オーバーヘッドは控えめで、1つのキャッシュされたフォワードパス(<=11%)と同値である。
COFTは、CoT生成を安全にするための明確で監査可能なパスを提供し、バイアスの低減、無視可能なユーティリティ損失、再訓練、補助分類器、ウェイトアクセスの要件がない。
関連論文リスト
- Inferring Code Correctness from Specification [0.0]
大規模言語モデル(LLM)は現代のソフトウェア開発に不可欠なものとなり、大規模に自動コード生成を可能にしている。
提案するTRAILS(Targeted Reasoning Agreement via Inputs and Specifications)は,コンクリート(インプット,アウトプット)ペアによるLCM推論を基礎とする手法である。
TRAILSをLiveCodeBenchとCoCoClaNeLの2つのデータセット(Qwen3Coder-30B、Devstral-Small-24B、Olmo3.1-Instruct)で評価し、HoarePromptとZero-Shot Chain-of-Thoughtベースラインと比較した。
論文 参考訳(メタデータ) (2026-05-28T12:04:51Z) - Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models [52.61023005303122]
低信頼度再マッシングは、誘導配列分布のエントロピーを制約しながら、品質のプロキシを改善することを示す。
我々は,デコード時に,この分布をほぼ対象とする簡易なインディペンデント・ハスティングス・サンプリング器を開発した。
論文 参考訳(メタデータ) (2026-04-01T02:01:30Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Residual Context Diffusion Language Models [90.07635240595926]
Residual Context Diffusion (RCD) は、捨てられたトークン表現をコンテキスト残留に変換し、次のデノイングステップでそれらを注入するモジュールである。
RCDは、最小限の計算オーバーヘッドで、5-10ポイントの精度でフロンティアdLLMを一貫して改善する。
論文 参考訳(メタデータ) (2026-01-30T13:16:32Z) - Logit-Entropy Adaptive Stopping Heuristic for Efficient Chain-of-Thought Reasoning [0.0]
CoTプロンプト(Chain-of-Thought)は、大規模言語モデルにおいて複雑な推論を可能にする重要なテクニックである。
LEASH: Logit-Entropy Adaptive Stopping Heuristicは,有理数生成を適応的に停止する学習自由復号アルゴリズムである。
論文 参考訳(メタデータ) (2025-11-06T18:43:16Z) - Do LLMs Know They Are Being Tested? Evaluation Awareness and Incentive-Sensitive Failures in GPT-OSS-20B [1.948261185683419]
本研究では,「評価香り」がコンメンシュレート能力を得ることなく測定性能を膨らませるかどうかを考察する。
6つのペアのA/Bシナリオを実行し、タスク内容を保持し、フレーミングの異なる状態でデコードします。
再現可能なA/Bフレームワーク(バンキング、バリデータ、ラン毎のスコア、スクリプト)と実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-10-08T09:49:05Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。