論文の概要: Social Comparison without Explicit Inference of Others' Reward Values: A Constructive Approach Using a Probabilistic Generative Model
- arxiv url: http://arxiv.org/abs/2512.18687v2
- Date: Tue, 23 Dec 2025 06:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 13:10:52.742931
- Title: Social Comparison without Explicit Inference of Others' Reward Values: A Constructive Approach Using a Probabilistic Generative Model
- Title(参考訳): 他者の報酬価値の明示的推定を伴わない社会的比較:確率的生成モデルを用いた構成的アプローチ
- Authors: Yosuke Taniuchi, Chie Hieida, Atsushi Noritake, Kazushi Ikeda, Masaki Isoda,
- Abstract要約: 社会的比較は主観的状態についての推測よりも、客観的報酬の違いに依存している。
サルのペア、報酬、刺激を含むデータセット上でモデルをトレーニングします。
我々は,事前定義された実験条件で主観的値を分類するモデルの能力を評価する。
- 参考スコア(独自算出の注目度): 1.9732490977700972
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Social comparison$\unicode{x2014}$the process of evaluating one's rewards relative to others$\unicode{x2014}$plays a fundamental role in primate social cognition. However, it remains unknown from a computational perspective how information about others' rewards affects the evaluation of one's own reward. With a constructive approach, this study examines whether monkeys merely recognize objective reward differences or, instead, infer others' subjective reward valuations. We developed three computational models with varying degrees of social information processing: an Internal Prediction Model (IPM), which infers the partner's subjective values; a No Comparison Model (NCM), which disregards partner information; and an External Comparison Model (ECM), which directly incorporates the partner's objective rewards. To test model performance, we used a multi-layered, multimodal latent Dirichlet allocation. We trained the models on a dataset containing the behavior of a pair of monkeys, their rewards, and the conditioned stimuli. Then, we evaluated the models' ability to classify subjective values across pre-defined experimental conditions. The ECM achieved the highest classification score in the Rand Index (0.88 vs. 0.79 for the IPM) under our settings, suggesting that social comparison relies on objective reward differences rather than inferences about subjective states.
- Abstract(参考訳): 社会的比較$\unicode{x2014}$ 他人に対する報酬を評価する過程$\unicode{x2014}$ 霊長類社会認知において基本的な役割を担っている。
しかし、他人の報酬に関する情報が自分の報酬評価にどのように影響するかは、計算的な観点からは分かっていない。
コンストラクティブアプローチでは、サルは単に客観的報酬の差を認識しているか、他人の主観的報酬評価を推測するかを検討する。
我々は、パートナーの主観的価値を推測する内部予測モデル(IPM)、パートナー情報を無視する非比較モデル(NCM)、パートナーの客観的報酬を直接組み込んだ外部比較モデル(ECM)の3つの計算モデルを開発した。
モデル性能をテストするために,多層型マルチモーダル遅延ディリクレアロケーションを用いた。
サルの行動、報酬、条件付き刺激を含むデータセットを用いてモデルを訓練した。
そして,事前定義された実験条件にまたがる主観的値の分類能力を評価した。
ECMはRand Index(IMMでは0.88対0.79)で最高の分類スコアを達成し、社会的比較は主観的状態についての推測よりも客観的報酬差に依存していることを示唆した。
関連論文リスト
- Probing Preference Representations: A Multi-Dimensional Evaluation and Analysis Method for Reward Models [63.00458229517523]
本研究は、嗜好表現を探索することで、報酬モデルの評価課題に対処する。
多次元リワードモデルベンチマーク (MRMBench) を構築する。
本稿では,報酬予測時に使用する次元を同定し,その解釈可能性を高める解析手法,推論時探索を提案する。
論文 参考訳(メタデータ) (2025-11-16T05:29:29Z) - A Ratio-Based Shapley Value for Collaborative Machine Learning - Extended Version [1.7778609937758325]
協調機械学習は、複数のデータ所有者が予測性能を改善するためにモデルを共同で訓練することを可能にする。
インセンティブの互換性と公正な貢献に基づく報酬を保証することは、依然として重要な課題である。
標準加法的定式化を相対的寄与尺度に置き換える比に基づくシェープリー値を導入する。
論文 参考訳(メタデータ) (2025-10-15T08:08:18Z) - From Scores to Preferences: Redefining MOS Benchmarking for Speech Quality Reward Modeling [66.22134521383909]
我々は、多様なMOSデータセットを優先順位比較設定に再構成する統一ベンチマークを導入する。
MOS-RMBenchを基盤として,報酬モデルのための3つのパラダイムを体系的に構築・評価する。
実験の結果,(1)スカラーモデルが最も高い総合的性能を達成し,その精度は74%を超え,(2)ほとんどのモデルでは,人間の音声よりもはるかに悪く,(3)MOSの差が非常に小さいペアで苦戦している,という結果が得られた。
実験結果から, MOS 対応 GRM は細粒度品質の識別を著しく改善し, 最も困難な場合においてスカラーモデルとのギャップを狭めることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-01T10:27:51Z) - CPO: Addressing Reward Ambiguity in Role-playing Dialogue via Comparative Policy Optimization [53.79487826635141]
RLFT(Reinforcement Learning Fine-Tuning)は、客観的に検証された回答を持つタスクにおいて顕著な成功を収めた。
しかし、ロールプレイング・ダイアログのようなオープンな主観的なタスクに苦しむ。
独立したサンプル単位のスコアリングに依存する従来の報酬モデリングアプローチでは、主観的評価基準と不安定な報酬信号という2つの課題に直面している。
人間の評価は、明示的な基準と暗黙的な比較判断を本質的に組み合わせているという知見に触発され、比較政策最適化を提案する。
論文 参考訳(メタデータ) (2025-08-12T16:49:18Z) - EvolvR: Self-Evolving Pairwise Reasoning for Story Evaluation to Enhance Generation [17.37840331449749]
本稿では,ストーリー評価のための自己進化的ペアワイズ推論(EvolvR)フレームワークを提案する。
フレームワークはまず、マルチペルソナ戦略を通じてスコア整合型Chain-of-Thought(CoT)データを自己合成する。
精巧なデータに基づいて訓練された評価器を報奨モデルとして展開し、ストーリー生成タスクを誘導する。
論文 参考訳(メタデータ) (2025-08-08T06:10:47Z) - Rethinking Reward Model Evaluation Through the Lens of Reward Overoptimization [15.729285736811383]
リワードモデルは、人間のフィードバックからの強化学習において重要な役割を果たす。
既存の報酬モデルベンチマークは、最適化されたポリシーの性能と弱い相関を示す。
論文 参考訳(メタデータ) (2025-05-19T06:43:08Z) - Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。
本稿では,予測の基盤性を考慮した新しい評価手法を提案する。
提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文 参考訳(メタデータ) (2025-03-24T20:14:46Z) - Evaluating Robustness of Reward Models for Mathematical Reasoning [14.97819343313859]
本稿では,報酬モデルの信頼性評価のための新しい設計を提案し,これを検証するためにRewardMATHを構築した。
RewardMATHのスコアは、最適化されたポリシーの結果と強く相関し、効果的に報酬過大評価を推定する。
論文 参考訳(メタデータ) (2024-10-02T16:39:58Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。