論文の概要: CHOIR: Collaborative Harmonization fOr Inference Robustness
- arxiv url: http://arxiv.org/abs/2510.22475v1
- Date: Sun, 26 Oct 2025 01:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.214487
- Title: CHOIR: Collaborative Harmonization fOr Inference Robustness
- Title(参考訳): CHOIR: 協調調和fOR推論ロバスト性
- Authors: Xiangjue Dong, Cong Wang, Maria Teleki, Millennium Bismay, James Caverlee,
- Abstract要約: パーソナライズされた大規模言語モデル(LLM)は、パーソナライズされたコンテキスト認識推論を可能にする様々な役割を採用できる。
単純な代名詞変化のようなペルソナの小さな人口変動は、推論の軌跡を変えることができ、正しい答えの発散につながる。
我々は、複数のペルソナ条件の推論信号を統一的な予測に調和させるテストタイムフレームワークであるCHOIRを提案する。
- 参考スコア(独自算出の注目度): 25.458744810976672
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Persona-assigned Large Language Models (LLMs) can adopt diverse roles, enabling personalized and context-aware reasoning. However, even minor demographic perturbations in personas, such as simple pronoun changes, can alter reasoning trajectories, leading to divergent sets of correct answers. Instead of treating these variations as biases to be mitigated, we explore their potential as a constructive resource to improve reasoning robustness. We propose CHOIR (Collaborative Harmonization fOr Inference Robustness), a test-time framework that harmonizes multiple persona-conditioned reasoning signals into a unified prediction. CHOIR orchestrates a collaborative decoding process among counterfactual personas, dynamically balancing agreement and divergence in their reasoning paths. Experiments on various reasoning benchmarks demonstrate that CHOIR consistently enhances performance across demographics, model architectures, scales, and tasks - without additional training. Improvements reach up to 26.4% for individual demographic groups and 19.2% on average across five demographics. It remains effective even when base personas are suboptimal. By reframing persona variation as a constructive signal, CHOIR provides a scalable and generalizable approach to more reliable LLM reasoning.
- Abstract(参考訳): パーソナライズされた大規模言語モデル(LLM)は、パーソナライズされたコンテキスト認識推論を可能にする様々な役割を採用できる。
しかし、単純な代名詞変化のようなペルソナの微妙な人口変動でさえ、推論の軌跡を変化させることができ、正しい答えの集合が分岐する。
これらの変分を緩和するバイアスとして扱う代わりに、推論の堅牢性を改善するための建設的な資源としての可能性を探る。
CHOIR(Collaborative Harmonization fOr Inference Robustness)は、複数のペルソナ条件の推論信号を統一的な予測に調和させるテスト時間フレームワークである。
CHOIRは、カウンターファクトのペルソナ間で協調的な復号処理をオーケストレーションし、合意の動的バランスと推論経路のばらつきを調整します。
さまざまな推論ベンチマークの実験によると、CHOIRは、追加のトレーニングなしで、人口統計、モデルアーキテクチャ、スケール、タスクのパフォーマンスを継続的に向上する。
個々の人口集団で26.4%、平均して5つの人口集団で19.2%の改善がある。
ベースペルソナが最適でない場合でも有効である。
CHOIRは、ペルソナ変動を建設的な信号として解釈することにより、より信頼性の高いLSM推論に対するスケーラブルで一般化可能なアプローチを提供する。
関連論文リスト
- From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。
CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文 参考訳(メタデータ) (2025-09-06T05:33:17Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment [35.80989342492335]
人間のフィードバックのノイズの多い好みは 報酬の一般化に繋がる
本研究の目的は,報酬モデルにおいて,騒音の嗜好が人間の嗜好とどのように異なるかを明らかにすることである。
我々は、堅牢な選好学習を実現するためのオンラインコラボレーション・リワード・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T10:58:20Z) - Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment [30.605500809158986]
本稿では,因果関係を緩和するために因果関係を統合した因果報酬モデリング手法を提案する。
提案手法は様々な種類のスプリアス相関を効果的に緩和し,LLMと人間の嗜好との整合性を高めた。
論文 参考訳(メタデータ) (2025-01-16T16:00:37Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - HANS, are you clever? Clever Hans Effect Analysis of Neural Systems [1.6267479602370545]
大規模言語モデル(It-LLM)は、認知状態、意図、そしてすべての人々の反応を推論する優れた能力を示しており、人間は日々の社会的相互作用を効果的にガイドし理解することができる。
モデル能力の確固たる評価を構築するために、MCQ(Multiple-choice Question)ベンチマークがいくつか提案されている。
しかし、初期の研究は、I-LLMに固有の「順序バイアス」があることを示しており、適切な評価に挑戦している。
論文 参考訳(メタデータ) (2023-09-21T20:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。