論文の概要: KARMA: Karma-Aligned Reward Model Adaptation
- arxiv url: http://arxiv.org/abs/2605.26738v1
- Date: Tue, 26 May 2026 09:12:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.782946
- Title: KARMA: Karma-Aligned Reward Model Adaptation
- Title(参考訳): KARMA: Karma-Aligned Reward Model Adaptation
- Authors: Jared Scott, Jesse Roberts,
- Abstract要約: 大規模ソーシャルインタラクションデータからコンテキストに敏感な会話行動を学ぶためのフレームワークであるKARMAを紹介する。
KarmaはRedditの会話で報酬モデルをトレーニングし、コンテキストによって条件付けられたレスポンスのバリュエーションを予測する。
下流モデルに適用したKARMAの効果を,ソーシャルメディアデータへの直接曝露の有無で評価した。
- 参考スコア(独自算出の注目度): 2.1843439591862333
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Human communication depends on implicit social signals where effectiveness is shaped by tone, context, and conversational norms rather than semantic content alone. We introduce KARMA (Karma-Aligned Reward Model Adaptation), a framework for LLM learning of context-sensitive conversational behavior from large-scale social interaction data. KARMA trains a reward model on Reddit conversations to predict response valuation conditioned on context, and uses this signal to fine-tune language models via reinforcement learning to improve performance on pragmatics-mediated tasks. Critically, we find that the highest performing reward model does not lead to better downstream model alignment: a reward model relying exclusively on conversational context was a worse predictor of Reddit karma but yielded substantially better downstream performance. We evaluate the effects of KARMA applied to a downstream model with and without direct exposure to the social media data. The resulting models show improved pragmatics-mediated behaviors with largely mitigated undesirable side effects. Factuality is consistently diminished by KARMA across all conditions, including when the downstream model has no direct exposure to Reddit data, suggesting that this tension is embedded in the reward signal itself rather than introduced by noisy training data.
- Abstract(参考訳): 人間のコミュニケーションは、意味的コンテンツのみではなく、トーン、文脈、会話の規範によって効果が形成される暗黙の社会的信号に依存する。
KARMA(Karma-Aligned Reward Model Adaptation)は,大規模ソーシャルインタラクションデータから文脈に敏感な会話行動を学ぶためのフレームワークである。
KARMAはRedditの会話で報酬モデルをトレーニングし、状況に応じた応答評価を予測し、この信号を使って強化学習を通じて言語モデルを微調整し、実用的タスクのパフォーマンスを向上させる。
会話のコンテキストにのみ依存する報酬モデルは、Redditのカルマの予測を悪くするが、ダウンストリームのパフォーマンスは著しく向上した。
下流モデルに適用したKARMAの効果を,ソーシャルメディアデータへの直接曝露の有無で評価した。
結果として得られたモデルは、主に望ましくない副作用を緩和した実用的行動の改善を示す。
下流モデルがRedditデータに直接露出していない場合など、すべての条件でKARMAによって、この緊張感はノイズの多いトレーニングデータによって導入されるのではなく、報酬信号自体に埋め込まれていることを示唆している。
関連論文リスト
- CausalRM: Causal-Theoretic Reward Modeling for RLHF from Observational User Feedbacks [65.44788139573144]
我々は、スケーラブルで費用対効果の高い代替手段として、観察的報酬モデル(観察的ユーザフィードバックを伴う報酬モデル)を導入します。
CaulRMは、観察フィードバックから偏見のない報酬モデルを学ぶことを目指している。
実験では、CausalRMがノイズや偏りのある観測フィードバックから正確な報酬信号を効果的に学習することを検証する。
論文 参考訳(メタデータ) (2026-03-19T10:37:34Z) - Listener-Rewarded Thinking in VLMs for Image Preferences [38.07052490646366]
視覚報酬モデルをトレーニングするためのリスナー強化GRPOフレームワークを提案する。
我々のリスナー型報酬方式は,ImageRewardベンチマークにおいて最も精度が高い。
これらの結果から、聞き手による報酬は、視覚言語モデルと微妙な人間の嗜好を整合させる、スケーラブルでデータ効率のよい経路を提供することが示された。
論文 参考訳(メタデータ) (2025-06-28T09:53:17Z) - Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment [30.605500809158986]
本稿では,因果関係を緩和するために因果関係を統合した因果報酬モデリング手法を提案する。
提案手法は様々な種類のスプリアス相関を効果的に緩和し,LLMと人間の嗜好との整合性を高めた。
論文 参考訳(メタデータ) (2025-01-16T16:00:37Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文 参考訳(メタデータ) (2023-10-31T21:52:41Z) - Decoding the Silent Majority: Inducing Belief Augmented Social Graph
with Large Language Model for Response Forecasting [74.68371461260946]
SocialSenseは、既存のソーシャルネットワーク上に信念中心のグラフを誘導するフレームワークであり、グラフベースの伝播によって社会的ダイナミクスを捉える。
本手法は,ゼロショット設定と教師あり設定の両方に対する実験的な評価において,既存の最先端技術を超えている。
論文 参考訳(メタデータ) (2023-10-20T06:17:02Z) - DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion
Models [97.31200133440308]
我々は、オンライン強化学習を用いて、テキスト・ツー・イメージモデルを微調整する。
拡散モデルに焦点をあて、微調整タスクをRL問題として定義する。
我々のアプローチはDPOKと呼ばれ、政策最適化とKL正規化を統合している。
論文 参考訳(メタデータ) (2023-05-25T17:35:38Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。