論文の概要: Notes on the Reward Representation of Posterior Updates
- arxiv url: http://arxiv.org/abs/2602.02912v1
- Date: Mon, 02 Feb 2026 23:37:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.136953
- Title: Notes on the Reward Representation of Posterior Updates
- Title(参考訳): 後更新のリワード表現について
- Authors: Pedro A. Ortega,
- Abstract要約: 固定確率モデルにおいて, KL-正則化ソフトアップデートがベイズ後部である場合について検討した。
この体制では、行動の変化は、そのチャネルによって実行される証拠によってのみ引き起こされる。
後続のアップデートは、行動を変える相対的な文脈依存のインセンティブ信号を決定するが、絶対的な報酬は決定しない。
- 参考スコア(独自算出の注目度): 1.0247773757446124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many ideas in modern control and reinforcement learning treat decision-making as inference: start from a baseline distribution and update it when a signal arrives. We ask when this can be made literal rather than metaphorical. We study the special case where a KL-regularized soft update is exactly a Bayesian posterior inside a single fixed probabilistic model, so the update variable is a genuine channel through which information is transmitted. In this regime, behavioral change is driven only by evidence carried by that channel: the update must be explainable as an evidence reweighing of the baseline. This yields a sharp identification result: posterior updates determine the relative, context-dependent incentive signal that shifts behavior, but they do not uniquely determine absolute rewards, which remain ambiguous up to context-specific baselines. Requiring one reusable continuation value across different update directions adds a further coherence constraint linking the reward descriptions associated with different conditioning orders.
- Abstract(参考訳): 現代の制御と強化学習における多くの考え方は、意思決定を推論として扱う: ベースライン分布から始め、信号が到着したときにそれを更新する。
比喩ではなく、いつそれをリテラルにできるかを問う。
我々は,KL規則化されたソフトアップデートが単一の固定確率モデル内のベイズ的後部である場合について検討し,更新変数は情報を伝達する真のチャネルである。
この体制では、行動の変化は、そのチャネルによって実行される証拠によってのみ駆動される:更新は、ベースラインを尊重する証拠として説明されなければならない。
後続の更新は、行動を変える相対的な文脈依存のインセンティブ信号を決定するが、絶対的な報酬は決定しない。
異なる更新方向をまたいだ再利用可能な継続値を1つ要求すると、異なる条件付け順序に関連付けられた報酬記述をリンクするさらにコヒーレンス制約が追加される。
関連論文リスト
- Explanation Multiplicity in SHAP: Characterization and Assessment [28.413883186555438]
ポストホックの説明は、貸付、雇用、医療といった高額な領域における自動決定を正当化し、議論し、レビューするために広く使われている。
しかし、実際にSHAPの説明は、個人、予測タスク、訓練されたモデルが固定された場合でも、繰り返し実行される間に大きく異なる可能性がある。
我々は、この現象の説明多重性の概念と命名、すなわち、同じ決定に対して複数の、内部的に有効な、実質的に異なる説明が存在すること。
論文 参考訳(メタデータ) (2026-01-19T02:01:18Z) - Refinement Provenance Inference: Detecting LLM-Refined Training Prompts from Model Behavior [58.751981587234916]
本稿では,Refinement Provenance Inference (RPI)監査タスクをRefinement Provenance Inference (RPI)として定式化する。
本稿では,ロジットレベルの信号で教師が強制する可能性機能を融合させるロジットベースのフレームワークであるReProを提案する。
トレーニング中、ReProはシャドウファインチューニングを通じて転送可能な表現を学び、訓練データアクセスなしで、見えない犠牲者の証明を推測するために軽量のリニアヘッドを使用する。
論文 参考訳(メタデータ) (2026-01-05T10:16:41Z) - Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - The Mirror Loop: Recursive Non-Convergence in Generative Reasoning Systems [0.0]
外部からのフィードバックのない再帰的な自己評価は、進歩よりもむしろ改革をもたらすことが多い。
3つのモデル(OpenAI GPT-4o-mini, Anthropic Claude 3 Haiku, Google Gemini 2.0 Flash)と4つのタスクファミリー(パラメータ、コード、説明、リフレクション)にまたがる144の推論シーケンスについて検討する。
我々はこれを、生成的推論における自己補正の構造的限界の証拠として解釈する。
論文 参考訳(メタデータ) (2025-10-23T07:53:26Z) - STABLE: Gated Continual Learning for Large Language Models [0.0]
STABLEは、シーケンシャルな更新時に忘れることを制限する、ゲート付き連続的なセルフ編集フレームワークである。
各候補編集は3つの指標のうちの1つを用いて安定性の予算に対して評価される。
Qwen-2.5-7Bモデルの実験では、ゲーティングは適応性を保ちながら忘れを効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-10-17T16:14:05Z) - Value Flows [90.1510269525399]
本稿では, フローベースモデルを用いて, 将来のリターン分布を推定する。
学習したフローモデルに基づいて、新しいフロー微分ODEを用いて、異なる状態の戻り不確かさを推定する。
ステートベース37ドル、イメージベースのベンチマークタスク25ドルの実験では、バリューフローが平均的な成功率で1.3倍の改善を達成している。
論文 参考訳(メタデータ) (2025-10-09T00:57:40Z) - Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。
TODAYは、システムがインクリメンタルな変化の効果を正しく理解できるかどうかを評価する。
共同学習においてTODAYの指導スタイルと説明アノテーションが有効であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:40:03Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Optimal Change-Point Detection with Training Sequences in the Large and
Moderate Deviations Regimes [72.68201611113673]
本稿では,情報理論の観点から,新しいオフライン変化点検出問題について検討する。
基礎となる事前および変更後分布の知識は分かっておらず、利用可能なトレーニングシーケンスからのみ学習できると仮定する。
論文 参考訳(メタデータ) (2020-03-13T23:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。