論文の概要: CoPA: Benchmarking Personalized Question Answering with Data-Informed Cognitive Factors
- arxiv url: http://arxiv.org/abs/2604.14773v1
- Date: Thu, 16 Apr 2026 08:35:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.80617
- Title: CoPA: Benchmarking Personalized Question Answering with Data-Informed Cognitive Factors
- Title(参考訳): CoPA: データインフォームド認知因子によるパーソナライズされた質問の回答のベンチマーク
- Authors: Hang Su, Zequn Liu, Chen Hu, Xuesong Lu, Yingce Xia, Zhen Liu,
- Abstract要約: 我々は,詳細な因子レベル評価のための1,985人のユーザプロファイルを持つベンチマークであるCoPAを紹介する。
モデル出力とインタラクションパターンから推測されるユーザ固有の認知的嗜好の一致を定量化することにより、CoPAはパーソナライズされたQAを評価するためのより包括的で差別的な標準を提供する。
- 参考スコア(独自算出の注目度): 29.398798665583584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While LLMs have demonstrated remarkable potential in Question Answering (QA), evaluating personalization remains a critical bottleneck. Existing paradigms predominantly rely on lexical-level similarity or manual heuristics, often lacking sufficient data-driven validation. We address this by mining Community-Individual Preference Divergence (CIPD), where individual choices override consensus, to distill six key personalization factors as evaluative dimensions. Accordingly, we introduce CoPA, a benchmark with 1,985 user profiles for fine-grained, factor-level assessment. By quantifying the alignment between model outputs and user-specific cognitive preferences inferred from interaction patterns, CoPA provides a more comprehensive and discriminative standard for evaluating personalized QA than generic metrics. The code is available at https://github.com/bjzgcai/CoPA.
- Abstract(参考訳): LLMは質問応答(QA)において顕著な可能性を示しているが、パーソナライゼーションの評価は依然として重要なボトルネックである。
既存のパラダイムは主に語彙レベルの類似性や手動のヒューリスティックに依存しており、データ駆動の検証が不十分であることが多い。
我々は,コミュニティ・個人的選好の多様性 (CIPD) をマイニングし, 個人の選択がコンセンサスを上回り, 6つの主要なパーソナライズ要因を評価次元として抽出する。
そこで我々は, きめ細かな因子レベル評価のための1,985人のユーザプロファイルを持つベンチマークであるCoPAを紹介した。
モデル出力とインタラクションパターンから推測されるユーザ固有の認知的嗜好の一致を定量化することにより、CoPAは一般的な指標よりもパーソナライズされたQAを評価するための、より包括的で差別的な標準を提供する。
コードはhttps://github.com/bjzgcai/CoPAで公開されている。
関連論文リスト
- More Human, More Efficient: Aligning Annotations with Quantized SLMs [7.699569505613514]
大きな言語モデル(LLM)の能力は人間の能力より優れており、自動評価やアノテーションにLLMが広く採用されている。
本研究は,限定的な人間注釈データ上で1.7Bパラメータの量子化された小言語モデルを微調整し,高度に整列された決定論的評価器および注釈器として機能する可能性について検討する。
論文 参考訳(メタデータ) (2026-04-01T07:46:34Z) - P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling [66.55381105691818]
P-GenRM(Personalized Generative Reward Model)を提案する。
P-GenRMは、選好信号を適応的なペルソナとスコアリングルーリックを導出する構造化評価チェーンに変換する。
さらにユーザをユーザプロトタイプにクラスタリングし、二重粒度スケーリングメカニズムを導入している。
論文 参考訳(メタデータ) (2026-02-12T16:07:22Z) - Symmetric Aggregation of Conformity Scores for Efficient Uncertainty Sets [6.673032375204486]
複数の予測器から非整合性スコアを集約する新しい手法であるSACP(Symmetric Aggregated Conformal Prediction)を提案する。
SACP はこれらのスコアを e-値に変換し、任意の対称アグリゲーション関数を用いてそれらを結合する。
我々はSACPが効率を継続的に改善し、しばしば最先端のモデルアグリゲーションベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2025-12-07T17:54:07Z) - Pathways of Thoughts: Multi-Directional Thinking for Long-form Personalized Question Answering [57.12316804290369]
ユーザ固有の情報ニーズに質問応答システムを適用するためには,パーソナライゼーションが不可欠である。
本稿では,タスク固有の微調整を必要とせず,任意の大規模言語モデル (LLM) に適用可能な推論段階の方法として,思考の経路 (PoT) を提案する。
PoTは競争ベースラインを一貫して上回り、13.1%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2025-09-23T14:44:46Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いた新しいクエリ性能予測(QPP)フレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
我々は,オープンソースの大規模言語モデル (LLM) を用いて,科学的妥当性を確保することにより,項目の関連性を予測する。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。