論文の概要: Optimal Use of Preferences in Artificial Intelligence Algorithms
- arxiv url: http://arxiv.org/abs/2601.18732v1
- Date: Mon, 26 Jan 2026 17:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.99196
- Title: Optimal Use of Preferences in Artificial Intelligence Algorithms
- Title(参考訳): 人工知能アルゴリズムにおける選好の最適利用
- Authors: Joshua S. Gans,
- Abstract要約: 機械学習システムは、トレーニング損失またはキャリブレーション後の予測処理を通じて、好みを組み込む。
本稿では,分離学習の嗜好が自由であり,ポスト前の選好が最適である決定問題条件を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning systems embed preferences either in training losses or through post-processing of calibrated predictions. Applying information design methods from Strack and Yang (2024), this paper provides decision problem agnostic conditions under which separation training preference free and applying preferences ex post is optimal. Unlike prior work that requires specifying downstream objectives, the welfare results here apply uniformly across decision problems. The key primitive is a diminishing-value-of-information condition: relative to a fixed (normalised) preference-free loss, preference embedding makes informativeness less valuable at the margin, inducing a mean-preserving contraction of learned posteriors. Because the value of information is convex in beliefs, preference-free training weakly dominates for any expected utility decision problem. This provides theoretical foundations for modular AI pipelines that learn calibrated probabilities and implement asymmetric costs through downstream decision rules. However, separation requires users to implement optimal decision rules. When cognitive constraints bind, as documented in human AI decision-making, preference embedding can dominate by automating threshold computation. These results provide design guidance: preserve optionality through post-processing when objectives may shift; embed preferences when decision-stage frictions dominate.
- Abstract(参考訳): 機械学習システムは、トレーニング損失またはキャリブレーション後の予測処理を通じて、好みを組み込む。
本稿では,Strack と Yang (2024) からの情報設計手法を適用した。
下流の目的を特定することを必要とする以前の作業とは異なり、ここでの福祉結果は意思決定問題に一様に適用される。
鍵となるプリミティブは情報の価値の低下である: 固定された(正規化された)選好自由損失に対して、選好埋め込みは、学習後部の平均保存収縮を誘導し、マージンにおいて情報の価値を低下させる。
情報の価値は信念の凸であるので、予想されるユーティリティ決定問題に対して、好みのないトレーニングが弱く支配されている。
これは、調整済み確率を学習し、下流決定ルールを通じて非対称コストを実装するモジュールAIパイプラインの理論基盤を提供する。
しかし、分離には最適な決定ルールを実装する必要がある。
認知的制約が人間のAI意思決定に記録されているように束縛されると、しきい値計算を自動化することで、好みの埋め込みが支配的になる。
これらの結果は、目的がシフトする際の後処理によるオプションの維持、決定段階の摩擦が支配する際の好みの埋め込み、といった設計指針を提供する。
関連論文リスト
- Solver-Free Decision-Focused Learning for Linear Optimization Problems [6.305123652677644]
多くの実世界のシナリオでは、最適化問題のパラメータは事前に知られておらず、文脈的特徴から予測されなければならない。
機械学習モデルは、最適化によって決定される問題パラメータを予測する。
本稿では, 線形最適化の幾何学的構造を利用して, 解の質を最小限に抑え, 効率的な学習を可能にする手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T10:55:16Z) - The Limits of Preference Data for Post-Training [27.229909368242517]
この結果から,選好データは基本的に,結果に基づく最適化を著しく制限することがわかった。
我々は、この不合理性を投票理論を用いて形式化し、モデルが問合せに答える方法と、有権者が選択する候補を選択する方法との類似性を引き出す。
このことは、人間のフィードバックを必要とする領域にRLポストトレーニングの成功を拡大するために、基礎となる人間のスコアリングとアルゴリズムの革新が必要であることを示唆している。
論文 参考訳(メタデータ) (2025-05-26T13:26:15Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Experience in Engineering Complex Systems: Active Preference Learning
with Multiple Outcomes and Certainty Levels [1.5257326975704795]
ブラックボックス最適化とは、目的関数と/または制約集合が未知、到達不能、あるいは存在しない問題を指す。
この特定の情報を活用するために、いわゆるActive Preference Learningと呼ばれるアルゴリズムが開発された。
我々のアプローチは、さらなる情報を効果的に活用できるような方法でアルゴリズムを拡張することを目的としている。
論文 参考訳(メタデータ) (2023-02-27T15:55:37Z) - Data-Driven Offline Decision-Making via Invariant Representation
Learning [97.49309949598505]
オフラインのデータ駆動意思決定は、アクティブなインタラクションなしで最適化された決定を合成する。
オフラインデータからトレーニングされたモデルへの入力に関して最適化する場合、誤って良いように見えるアウト・オブ・ディストリビューション(OOD)インプットを生成するのは簡単です。
本稿では、オフラインデータ駆動意思決定をドメイン適応として定式化し、最適化された決定値の正確な予測を行うことを目標とする。
論文 参考訳(メタデータ) (2022-11-21T11:01:37Z) - A Note on Task-Aware Loss via Reweighing Prediction Loss by
Decision-Regret [11.57423546614283]
我々は予測最適化の意思決定対応版を提案する。
コストの(非重みのない)パイロット推定器が犯した決定の後悔による予測誤差を再検討する。
このアプローチは"予測を最適化する"フレームワークよりも改善する可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-09T18:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。