論文の概要: Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time
- arxiv url: http://arxiv.org/abs/2505.23729v1
- Date: Thu, 29 May 2025 17:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.063909
- Title: Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time
- Title(参考訳): LLMの有界性:推論時間におけるアライメントの満足度
- Authors: Mohamad Chehade, Soumya Suvra Ghosal, Souradip Chakraborty, Avinash Reddy, Dinesh Manocha, Hao Zhu, Amrit Singh Bedi,
- Abstract要約: 本稿では,2次基準のしきい値に基づく制約を満たしつつ,主目的を最大化し,アライメントの多面性に対処する推論フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
- 参考スコア(独自算出の注目度): 52.230936493691985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models with humans is challenging due to the inherently multifaceted nature of preference feedback. While existing approaches typically frame this as a multi-objective optimization problem, they often overlook how humans actually make decisions. Research on bounded rationality suggests that human decision making follows satisficing strategies-optimizing primary objectives while ensuring others meet acceptable thresholds. To bridge this gap and operationalize the notion of satisficing alignment, we propose SITAlign: an inference time framework that addresses the multifaceted nature of alignment by maximizing a primary objective while satisfying threshold-based constraints on secondary criteria. We provide theoretical insights by deriving sub-optimality bounds of our satisficing based inference alignment approach. We empirically validate SITAlign's performance through extensive experimentation on multiple benchmarks. For instance, on the PKU-SafeRLHF dataset with the primary objective of maximizing helpfulness while ensuring a threshold on harmlessness, SITAlign outperforms the state-of-the-art multi objective decoding strategy by a margin of 22.3% in terms of GPT-4 win-tie rate for helpfulness reward while adhering to the threshold on harmlessness.
- Abstract(参考訳): 好みのフィードバックが本質的に多面的であることから,大規模言語モデルを人間に適応させることは困難である。
既存のアプローチでは、これを多目的最適化問題とみなすのが一般的だが、人間がどのように意思決定を行うかを見落としていることが多い。
有界合理性の研究は、人間の意思決定が戦略を最適化する主目的を満足させ、他者が許容できる閾値を満たすことを示唆している。
このギャップを埋め, 整合性の概念を運用するために, セカンダリ基準のしきい値に基づく制約を満たしつつ, 主目的を最大化してアライメントの多面性に対処する推論時間フレームワークSITAlignを提案する。
我々は、満足度に基づく推論アライメントアプローチの準最適境界を導出することで理論的洞察を提供する。
我々は、SITAlignの性能を複数のベンチマークで広範な実験によって実証的に検証する。
例えば、PKU-SafeRLHFデータセットにおいて、無害性のしきい値を確保しながら無害性の最大化を主な目的とするSITAlignは、無害性のしきい値に固執しつつ、無害性報酬のGPT-4の勝率の点で、最先端の多目的デコード戦略を22.3%上回っている。
関連論文リスト
- Probability-Consistent Preference Optimization for Enhanced LLM Reasoning [36.74546743563837]
本稿では、選好選択のための2つの定量的指標を確立する新しいフレームワークを提案する。
私たちのコードはhttps://github.com/YunqiaoYang/PCPO.comで公開されています。
論文 参考訳(メタデータ) (2025-05-29T15:20:44Z) - Learning Pareto-Optimal Rewards from Noisy Preferences: A Framework for Multi-Objective Inverse Reinforcement Learning [0.0]
そこで我々は,人間の嗜好を潜在ベクトル値報酬関数としてモデル化する,嗜好に基づく多目的逆強化学習(MO-IRL)の理論的枠組みを提案する。
本研究は,実践的アライメント技術と理論的保証のギャップを埋め,アライメント行動の学習の原則的基盤を提供するものである。
論文 参考訳(メタデータ) (2025-05-17T06:09:13Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - Analyzing and Bridging the Gap between Maximizing Total Reward and Discounted Reward in Deep Reinforcement Learning [17.245293915129942]
最適目的は強化学習(RL)の基本的側面である
総リターンは理想的であるが、割引リターンはその安定性のために現実的な目的である。
目的を整合させる2つの方法を提案する。
論文 参考訳(メタデータ) (2024-07-18T08:33:10Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Bi-objective Ranking and Selection Using Stochastic Kriging [0.0]
両目的のランク付けと選択の問題について検討し,その2つの目的が不確実性をもって観測された。
そこで本研究では,競合する解に対して逐次サンプルを割り当てるバイーシアン双対象ランクと選別法を提案する。
実験結果から,提案手法は標準的なアロケーション手法よりも優れており,また,よく知られた最先端のアルゴリズムも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-05T23:51:07Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。