論文の概要: VORTEX: Aligning Task Utility and Human Preferences through LLM-Guided Reward Shaping
- arxiv url: http://arxiv.org/abs/2509.16399v1
- Date: Fri, 19 Sep 2025 20:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.774014
- Title: VORTEX: Aligning Task Utility and Human Preferences through LLM-Guided Reward Shaping
- Title(参考訳): VORTEX: LLMガイドによるリワードシェイピングによるタスクユーティリティと人間の嗜好の調整
- Authors: Guojun Xiong, Milind Tambe,
- Abstract要約: 社会的影響の最適化において、AI決定システムはよく、よく校正された数学的目的を最適化する解法に依存する。
近年のアプローチでは、好み記述から新たな報酬関数を生成するために、大規模言語モデルを用いてこの問題に対処している。
我々は、人間のフィードバックを適応的に取り入れつつ、確立された最適化目標を保存する言語誘導報酬形成フレームワークである textttVORTEX を提案する。
- 参考スコア(独自算出の注目度): 40.48402462300208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In social impact optimization, AI decision systems often rely on solvers that optimize well-calibrated mathematical objectives. However, these solvers cannot directly accommodate evolving human preferences, typically expressed in natural language rather than formal constraints. Recent approaches address this by using large language models (LLMs) to generate new reward functions from preference descriptions. While flexible, they risk sacrificing the system's core utility guarantees. In this paper, we propose \texttt{VORTEX}, a language-guided reward shaping framework that preserves established optimization goals while adaptively incorporating human feedback. By formalizing the problem as multi-objective optimization, we use LLMs to iteratively generate shaping rewards based on verbal reinforcement and text-gradient prompt updates. This allows stakeholders to steer decision behavior via natural language without modifying solvers or specifying trade-off weights. We provide theoretical guarantees that \texttt{VORTEX} converges to Pareto-optimal trade-offs between utility and preference satisfaction. Empirical results in real-world allocation tasks demonstrate that \texttt{VORTEX} outperforms baselines in satisfying human-aligned coverage goals while maintaining high task performance. This work introduces a practical and theoretically grounded paradigm for human-AI collaborative optimization guided by natural language.
- Abstract(参考訳): 社会的影響の最適化において、AI決定システムはよく、よく校正された数学的目的を最適化する解法に依存する。
しかし、これらの解法は人間の嗜好の進化に直接適応できない(典型的には形式的な制約ではなく自然言語で表される)。
近年,大規模言語モデル (LLM) を用いて好み記述から新たな報酬関数を生成する手法が提案されている。
柔軟性はあるものの、システムのコアユーティリティ保証を犠牲にするリスクがある。
本稿では,人間のフィードバックを適応的に取り入れつつ,確立した最適化目標を保存するための言語誘導報酬形成フレームワークである「texttt{VORTEX}」を提案する。
この問題を多目的最適化として定式化することにより、言語強化とテキスト段階のプロンプト更新に基づいて、LCMを反復的にシェーピング報酬を生成する。
これにより、ステークホルダーは、ソルバを変更したり、トレードオフの重みを指定したりすることなく、自然言語を介して意思決定の行動を制御できる。
実用性と嗜好満足度の間のパレート最適トレードオフに,‘texttt{VORTEX} が収束するという理論的保証を提供する。
実世界のアロケーションタスクにおける実証的な結果から,高タスク性能を維持しつつ,人間のアラインなカバレッジ目標を満たす上で,‘texttt{VORTEX} がベースラインを上回っていることが示された。
この研究は、自然言語で導かれる人間とAIの協調最適化のための実践的で理論的に基礎的なパラダイムを導入している。
関連論文リスト
- OptimAI: Optimization from Natural Language Using LLM-Powered AI Agents [8.441638148384389]
自然言語で記述された最適化問題を解くためのフレームワークであるOptimAIを紹介する。
私たちのフレームワークは、フォーミュラ、プランナー、コーダ、コード批判といった重要な役割の上に構築されています。
提案手法では,NLP4LPデータセットで88.1%,Optibenchデータセットで82.3%,エラー率で58%,エラー率で52%の精度を実現した。
論文 参考訳(メタデータ) (2025-04-23T17:45:05Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - EmPO: Emotion Grounding for Empathetic Response Generation through Preference Optimization [9.934277461349696]
共感反応生成は会話エージェントの望ましい側面である。
感情接地に基づく理論駆動の嗜好データセットを構築する新しい手法を提案する。
本研究では,LLMを一般性能を維持しつつ,好みの最適化により共感応答生成に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-06-27T10:41:22Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - SEE: Strategic Exploration and Exploitation for Cohesive In-Context Prompt Optimization [8.975505323004427]
大規模言語モデル(LLM)のための新しい結合型インコンテキストプロンプト最適化フレームワークを提案する。
SEEは、メタヒューリスティック最適化の原則を採用し、戦略的に探索と活用を行うスケーラブルで効率的なプロンプト最適化フレームワークである。
SEEは最先端のベースライン法を大幅に上回り、平均性能は13.94、計算コストは58.67である。
論文 参考訳(メタデータ) (2024-02-17T17:47:10Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。