論文の概要: Granular feedback merits sophisticated aggregation
- arxiv url: http://arxiv.org/abs/2507.12041v1
- Date: Wed, 16 Jul 2025 08:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.31535
- Title: Granular feedback merits sophisticated aggregation
- Title(参考訳): 粒界フィードバックは洗練された集約に有用である
- Authors: Anmol Kagrecha, Henrik Marklund, Potsawee Manakul, Richard Zeckhauser, Benjamin Van Roy,
- Abstract要約: フィードバックの粒度が大きくなるにつれて、正規化平均化の予測よりも大幅に改善できることが示される。
特にバイナリフィードバックでは、ソフィケーションは、一定のレベルのパフォーマンスを達成するために必要な個人数をわずかに削減する。
- 参考スコア(独自算出の注目度): 27.268860235599973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human feedback is increasingly used across diverse applications like training AI models, developing recommender systems, and measuring public opinion -- with granular feedback often being preferred over binary feedback for its greater informativeness. While it is easy to accurately estimate a population's distribution of feedback given feedback from a large number of individuals, cost constraints typically necessitate using smaller groups. A simple method to approximate the population distribution is regularized averaging: compute the empirical distribution and regularize it toward a prior. Can we do better? As we will discuss, the answer to this question depends on feedback granularity. Suppose one wants to predict a population's distribution of feedback using feedback from a limited number of individuals. We show that, as feedback granularity increases, one can substantially improve upon predictions of regularized averaging by combining individuals' feedback in ways more sophisticated than regularized averaging. Our empirical analysis using questions on social attitudes confirms this pattern. In particular, with binary feedback, sophistication barely reduces the number of individuals required to attain a fixed level of performance. By contrast, with five-point feedback, sophisticated methods match the performance of regularized averaging with about half as many individuals.
- Abstract(参考訳): 人間のフィードバックは、AIモデルのトレーニング、レコメンデータシステムの開発、世論の評価など、さまざまなアプリケーションで利用されている。
多数の個人からのフィードバックを受けて、集団のフィードバックの分布を正確に見積もるのは容易であるが、コスト制約は通常、より小さなグループを使う必要がある。
人口分布を近似する簡単な方法は、平均化(英語版)であり、経験的分布を計算し、それを事前に正規化する。
改善できますか?
議論するが、この問題に対する答えはフィードバックの粒度に依存する。
限られた数の個人からのフィードバックを用いて、集団のフィードバックの分布を予測したいと仮定する。
フィードバックの粒度が大きくなるにつれて、個人のフィードバックを正規化平均よりも洗練された方法で組み合わせることで、正規化平均化の予測を大幅に改善できることを示す。
社会的態度に関する質問を用いた実証分析は,このパターンを裏付けるものである。
特にバイナリフィードバックでは、ソフィケーションは、一定のレベルのパフォーマンスを達成するために必要な個人数をわずかに削減する。
対照的に、5点フィードバックでは、洗練された手法は、正規化平均化のパフォーマンスと約半分の個人とを一致させる。
関連論文リスト
- ProgRoCC: A Progressive Approach to Rough Crowd Counting [66.09510514180593]
私たちはRough Crowd Countingというラベルを付け、取得が容易なトレーニングデータに基づいて精度を向上します。
本稿では,ProgRoCCと呼ばれるCLIPに基づく大群カウント問題に対するアプローチを提案する。
具体的には、粗大なアプローチによってオブジェクト数を決定するプログレッシブな推定学習戦略を導入する。
論文 参考訳(メタデータ) (2025-04-18T01:57:42Z) - Variational Bayesian Personalized Ranking [39.24591060825056]
変分的BPRは、確率最適化、ノイズ低減、人気低下を統合する、新しく実装が容易な学習目標である。
本稿では,問題サンプルからの雑音を効果的に低減するために,注目に基づく競合学習手法を提案する。
実験により、人気のあるバックボーンレコメンデーションモデルにおける変分BPRの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-14T04:22:01Z) - Adaptive Querying for Reward Learning from Human Feedback [5.587293092389789]
人間のフィードバックから学ぶことは、ロボットを訓練してユーザの好みに適応し、安全性を向上させるための一般的なアプローチである。
副作用などの不安全行動に関連するペナルティ関数を,複数種類のフィードバックを用いて学習する方法を検討する。
まず,クエリのクリティカルな状態を選択し,次に情報ゲインを用いてクエリのフィードバック形式を選択する。
論文 参考訳(メタデータ) (2024-12-11T00:02:48Z) - Reward Modeling with Ordinal Feedback: Wisdom of the Crowd [9.034189257088762]
人間の好みから報酬モデル(RM)を学ぶことは、大きな言語モデルを調整する上で重要な要素である。
順序フィードバックの下でRMを学習するためのフレームワークを提案する。
我々は,Rademacher複雑性の低減の観点から,順序フィードバックの統計的利点を証明した。
論文 参考訳(メタデータ) (2024-11-19T20:17:04Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - Crowd-PrefRL: Preference-Based Reward Learning from Crowds [0.4439066410935887]
クラウドソーシング技術と嗜好に基づく強化学習アプローチを統合する概念的フレームワークであるCrowd-PrefRLを導入する。
予備的な結果は,未知の専門知識と信頼性を持つ群衆が提供した嗜好フィードバックから,報酬関数とエージェントポリシーを学習できることを示唆している。
提案手法は, 群衆内における少数視点の存在を, 教師なしの方法で識別できることが示唆された。
論文 参考訳(メタデータ) (2024-01-17T18:06:17Z) - Correcting the User Feedback-Loop Bias for Recommendation Systems [34.44834423714441]
本稿では,レコメンデーションシステムにおいて,ユーザのフィードバックループバイアスを修正するための系統的かつ動的手法を提案する。
本手法は,各ユーザの動的評価履歴の埋め込みを学習するためのディープラーニングコンポーネントを含む。
実世界のレコメンデーションシステムにおけるユーザフィードバックループバイアスの存在を実証的に検証した。
論文 参考訳(メタデータ) (2021-09-13T15:02:55Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。