論文の概要: Preference Learning with Response Time
- arxiv url: http://arxiv.org/abs/2505.22820v1
- Date: Wed, 28 May 2025 19:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.512295
- Title: Preference Learning with Response Time
- Title(参考訳): 応答時間による選好学習
- Authors: Ayush Sawarni, Sahasrajit Sarmasarkar, Vasilis Syrgkanis,
- Abstract要約: 応答時間情報をバイナリ選択データとともに組み込む新しい手法を提案する。
我々は、報酬モデル学習のためのオラクル収束率を達成するニーマン直交損失関数を開発する。
我々の実験は、画像よりも好み学習の文脈における理論的知見を検証した。
- 参考スコア(独自算出の注目度): 18.659347526840822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the integration of response time data into human preference learning frameworks for more effective reward model elicitation. While binary preference data has become fundamental in fine-tuning foundation models, generative AI systems, and other large-scale models, the valuable temporal information inherent in user decision-making remains largely unexploited. We propose novel methodologies to incorporate response time information alongside binary choice data, leveraging the Evidence Accumulation Drift Diffusion (EZ) model, under which response time is informative of the preference strength. We develop Neyman-orthogonal loss functions that achieve oracle convergence rates for reward model learning, matching the theoretical optimal rates that would be attained if the expected response times for each query were known a priori. Our theoretical analysis demonstrates that for linear reward functions, conventional preference learning suffers from error rates that scale exponentially with reward magnitude. In contrast, our response time-augmented approach reduces this to polynomial scaling, representing a significant improvement in sample efficiency. We extend these guarantees to non-parametric reward function spaces, establishing convergence properties for more complex, realistic reward models. Our extensive experiments validate our theoretical findings in the context of preference learning over images.
- Abstract(参考訳): 本稿では、より効果的な報酬モデル推論のための人選好学習フレームワークへの応答時間データの統合について検討する。
バイナリ嗜好データは、微調整基礎モデル、生成AIシステム、その他の大規模モデルにおいて基本となっているが、ユーザ決定に固有の貴重な時間情報は、明らかにされていないままである。
本稿では,2値選択データと合わせて応答時間情報を組み込む手法を提案する。Evidence Accumulation Drift Diffusion (EZ) モデルを用いて,応答時間に所望の強度を知らせる手法を提案する。
報奨モデル学習のためのオラクル収束率を達成するNeyman-orthogonal loss関数を開発した。
理論解析により,線形報酬関数の場合,従来の選好学習は指数関数的に報酬等級にスケールする誤り率に悩まされることが示された。
対照的に、我々の応答時間拡張アプローチは、これを多項式スケーリングに還元し、サンプル効率が大幅に向上したことを示す。
これらの保証を非パラメトリック報酬関数空間に拡張し、より複雑で現実的な報酬モデルに対する収束性を確立する。
画像に対する嗜好学習の文脈における理論的知見の検証を行った。
関連論文リスト
- Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - TimeRAF: Retrieval-Augmented Foundation model for Zero-shot Time Series Forecasting [59.702504386429126]
TimeRAFは検索拡張技術によるゼロショット時系列予測を強化する検索拡張予測モデルである。
TimeRAFは、エンド・ツー・エンドの学習可能なレトリバーを使用して、知識ベースから貴重な情報を抽出する。
論文 参考訳(メタデータ) (2024-12-30T09:06:47Z) - Enhancing Preference-based Linear Bandits via Human Response Time [25.92686846689662]
対話的嗜好学習システムは、クエリを選択肢のペアとして提示し、バイナリ選択を収集することによって、人間の嗜好を推測する。
本研究では,選択時間と応答時間を組み合わせて人間のユーティリティ関数を推定する手法を提案する。
固定予算ベストアーム識別のための選好ベース線形バンドレットにこの推定器を組み込む。
論文 参考訳(メタデータ) (2024-09-09T17:02:47Z) - Online Iterative Reinforcement Learning from Human Feedback with General Preference Model [20.81421550138371]
本稿では,人間のフィードバックからの強化学習(RLHF)について,一般的な嗜好のオラクルの文脈で検討する。
我々は、RLHFの2つのLLM間の逆KL正規化ミニマックスゲームである標準的な数学的定式化を考える。
このフレームワークは報酬ベースよりも厳密に汎用的であり,事前選択された選好データセットからオフライン学習を行うためのサンプル効率のよいアルゴリズムとオンライン学習を提案する。
論文 参考訳(メタデータ) (2024-02-11T21:44:21Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Towards Flexible Time-to-event Modeling: Optimizing Neural Networks via
Rank Regression [17.684526928033065]
我々はDART(Time-to-event Prediction)のためのDeep AFT Rank-regressionモデルを導入する。
このモデルは、表現学習において効率的で信頼性の高いゲハンのランク統計に基づく客観的関数を用いる。
提案手法は, 生存時間分布に分布仮定を課さない半パラメトリックなAFTモデリング手法である。
論文 参考訳(メタデータ) (2023-07-16T13:58:28Z) - OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive
Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。
我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。
リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文 参考訳(メタデータ) (2023-06-20T03:02:14Z) - Leveraging the structure of dynamical systems for data-driven modeling [111.45324708884813]
トレーニングセットとその構造が長期予測の品質に与える影響を考察する。
トレーニングセットのインフォームドデザインは,システムの不変性と基盤となるアトラクションの構造に基づいて,結果のモデルを大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-12-15T20:09:20Z) - Spatio-Temporal Functional Neural Networks [11.73856529960872]
本稿では,多くの研究者によって有効性が証明された時間回帰モデルであるニューラル・ファンクショナル・ネットワーク(FNN)の2つの新しい拡張を提案する。
提案したモデルは気象分野における実用的で挑戦的な降水予測問題を解決するために展開される。
論文 参考訳(メタデータ) (2020-09-11T21:32:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。