論文の概要: Generalized Priority-Aware Shapley Value
- arxiv url: http://arxiv.org/abs/2605.15018v1
- Date: Thu, 14 May 2026 16:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.939746
- Title: Generalized Priority-Aware Shapley Value
- Title(参考訳): 一般化プライオリティ・アウェア・シェープリー値
- Authors: Kiljae Lee, Ziqi Liu, Weijing Tang, Yuan Zhang,
- Abstract要約: GPASV(Generalized Priored-Aware Shapley value)を導入する。
GPASVは、任意の重み付けされた優先順位グラフ上で定義されたランダムな順序値であり、一対のエッジは順序違反を禁止するのではなく、ペナル化する。
- 参考スコア(独自算出の注目度): 18.696678371045213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shapley value and its priority-aware extensions are widely used for valuation in machine learning, but existing methods require pairwise priority to be binary and acyclic, a restriction spectacularly violated in real-data examples such as aggregated human preferences and multi-criterion comparisons. We introduce the generalized priority-aware Shapley value (GPASV), a random order value defined on arbitrary directed weighted priority graphs, in which pairwise edges penalize rather than forbid order violations. GPASV covers a range of classical models as boundary cases. We establish GPASV through an axiomatic characterization, develop the associated computational methods, and introduce a priority sweeping diagnostic extending PASV's. We apply GPASV to LLM ensemble valuation on the cyclic Chatbot Arena preference graph, illustrating that priority-aware valuation is not a one-button operation: different balances of pairwise graph priority versus individual soft priority produce substantively different valuations of the same data.
- Abstract(参考訳): シェープ値とその優先度対応拡張は機械学習のバリュエーションに広く利用されているが、既存の手法では2進法と非巡回法の両方を優先しなければならない。
本稿では、任意の重み付けされた優先グラフ上に定義されたランダム順序値である一般化優先値(GPASV)を導入する。
GPASVは、様々な古典的なモデルを境界ケースとしてカバーしている。
我々は,公理的特徴からGPASVを確立し,関連する計算手法を開発し,PASVを拡張させる優先的な診断手法を導入する。
GPASVを循環型Chatbot Arena選好グラフ上でLLMアンサンブル評価に適用し、優先度を意識した評価が1ボタン演算ではないことを示す。
関連論文リスト
- PriorNet: Prior-Guided Engagement Estimation from Face Video [53.005382593686356]
パイプラインの3段階(前処理、モデル適応、客観的設計)でタスク関連事前処理を注入する事前ガイダンスフレームワークであるPresideerNetを提案する。
それぞれのデータセットのネイティブ評価プロトコルを用いて, EngageNet, DAiSEE, DREAMS, PAFE 上の PreorNet を評価する。
論文 参考訳(メタデータ) (2026-05-05T10:40:20Z) - Priority-Aware Shapley Value [18.696678371045213]
プライオリティを意識する共有価値(PASV)には、ハード優先度制約と、ソフトでコントリビュータ固有のプライオリティ重みの両方が組み込まれている。
スケーラブルモンテカルロ推定のための効率的な隣接スワップ型メトロポリス・ハスティングスサンプリング器を開発した。
論文 参考訳(メタデータ) (2026-02-10T01:41:32Z) - Direct Preference Optimization with Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-17T15:00:40Z) - On-the-fly Preference Alignment via Principle-Guided Decoding [27.50204023448716]
モデル出力を推論中に人間の好みに合わせるために、OPAD(Principle-Guided Decoding)によるオンザフライの優先度アライメントを導入する。
OPADは、一般的なタスクとパーソナライズされたアライメントタスクの両方において、競争力または優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-20T02:23:09Z) - PIPA: Preference Alignment as Prior-Informed Statistical Estimation [57.24096291517857]
本稿では、RLフリーな統一確率的フレームワークであるPIPA(Pior-Informed Preference Alignment)を紹介する。
PIPAはペアデータとアンペアデータの両方に対応し、回答とステップレベルのアノテーションを提供する。
異なる種類の事前情報を統合することにより,PIPA-MとPIPA-Nの2種類のPIPAを開発した。
論文 参考訳(メタデータ) (2025-02-09T04:31:30Z) - Direct Preference Optimization With Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences [14.686788596611246]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の価値の整合の中心となっている。
最近の選択肢であるDPO(Direct Preference Optimization)は、好みを直接最適化することでパイプラインを単純化している。
生成モデルアライメントにおける多様なユーザに対する公平性とパーソナライズのための理論的かつアルゴリズム的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T21:25:20Z) - Differentially Private Domain Adaptation with Theoretical Guarantees [46.37771025567305]
多くのアプリケーションでは、ラベル付きデータの処分におけるラベル付きデータはプライバシー上の制約を受けており、比較的制限されている。
これは、パブリックソースからプライベートターゲットドメインへのドメイン適応を監督する現代の問題である。
我々は、理論的な学習保証の恩恵を受けるために、一般の学習者を利用する。
論文 参考訳(メタデータ) (2023-06-15T04:03:06Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。