論文の概要: VORTEX: Aligning Task Utility and Human Preferences through LLM-Guided Reward Shaping
- arxiv url: http://arxiv.org/abs/2509.16399v1
- Date: Fri, 19 Sep 2025 20:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.774014
- Title: VORTEX: Aligning Task Utility and Human Preferences through LLM-Guided Reward Shaping
- Title(参考訳): VORTEX: LLMガイドによるリワードシェイピングによるタスクユーティリティと人間の嗜好の調整
- Authors: Guojun Xiong, Milind Tambe,
- Abstract要約: 社会的影響の最適化において、AI決定システムはよく、よく校正された数学的目的を最適化する解法に依存する。
近年のアプローチでは、好み記述から新たな報酬関数を生成するために、大規模言語モデルを用いてこの問題に対処している。
我々は、人間のフィードバックを適応的に取り入れつつ、確立された最適化目標を保存する言語誘導報酬形成フレームワークである textttVORTEX を提案する。
- 参考スコア(独自算出の注目度): 40.48402462300208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In social impact optimization, AI decision systems often rely on solvers that optimize well-calibrated mathematical objectives. However, these solvers cannot directly accommodate evolving human preferences, typically expressed in natural language rather than formal constraints. Recent approaches address this by using large language models (LLMs) to generate new reward functions from preference descriptions. While flexible, they risk sacrificing the system's core utility guarantees. In this paper, we propose \texttt{VORTEX}, a language-guided reward shaping framework that preserves established optimization goals while adaptively incorporating human feedback. By formalizing the problem as multi-objective optimization, we use LLMs to iteratively generate shaping rewards based on verbal reinforcement and text-gradient prompt updates. This allows stakeholders to steer decision behavior via natural language without modifying solvers or specifying trade-off weights. We provide theoretical guarantees that \texttt{VORTEX} converges to Pareto-optimal trade-offs between utility and preference satisfaction. Empirical results in real-world allocation tasks demonstrate that \texttt{VORTEX} outperforms baselines in satisfying human-aligned coverage goals while maintaining high task performance. This work introduces a practical and theoretically grounded paradigm for human-AI collaborative optimization guided by natural language.
- Abstract(参考訳): 社会的影響の最適化において、AI決定システムはよく、よく校正された数学的目的を最適化する解法に依存する。
しかし、これらの解法は人間の嗜好の進化に直接適応できない(典型的には形式的な制約ではなく自然言語で表される)。
近年,大規模言語モデル (LLM) を用いて好み記述から新たな報酬関数を生成する手法が提案されている。
柔軟性はあるものの、システムのコアユーティリティ保証を犠牲にするリスクがある。
本稿では,人間のフィードバックを適応的に取り入れつつ,確立した最適化目標を保存するための言語誘導報酬形成フレームワークである「texttt{VORTEX}」を提案する。
この問題を多目的最適化として定式化することにより、言語強化とテキスト段階のプロンプト更新に基づいて、LCMを反復的にシェーピング報酬を生成する。
これにより、ステークホルダーは、ソルバを変更したり、トレードオフの重みを指定したりすることなく、自然言語を介して意思決定の行動を制御できる。
実用性と嗜好満足度の間のパレート最適トレードオフに,‘texttt{VORTEX} が収束するという理論的保証を提供する。
実世界のアロケーションタスクにおける実証的な結果から,高タスク性能を維持しつつ,人間のアラインなカバレッジ目標を満たす上で,‘texttt{VORTEX} がベースラインを上回っていることが示された。
この研究は、自然言語で導かれる人間とAIの協調最適化のための実践的で理論的に基礎的なパラダイムを導入している。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - LLMize: A Framework for Large Language Model-Based Numerical Optimization [0.0]
大規模言語モデル(LLM)は、最近、従来の言語タスク以上の強力な推論能力を示している。
本稿では,LLM駆動最適化を実現するオープンソースPythonフレームワークであるLLMizeを提案する。
論文 参考訳(メタデータ) (2025-12-30T20:05:30Z) - LAPPI: Interactive Optimization with LLM-Assisted Preference-Based Problem Instantiation [6.8772471411888425]
LAPPI (LLM-Assisted Preference-based Problem Instantiation) は,大規模言語モデル(LLM)を用いてユーザを支援する対話型アプローチである。
旅行計画のユーザスタディにおいて,提案手法はユーザの嗜好を把握し,従来の手法と迅速な手法の両方に勝る実現可能な計画を生成する。
論文 参考訳(メタデータ) (2025-12-16T06:43:38Z) - Bayesian Optimization in Language Space: An Eval-Efficient AI Self-Improvement Framework [0.0]
大規模言語モデル(LLM)は、最近、自己改善型AI、すなわち、自身の成果を反復的に生成し、評価し、洗練するAIを可能にした。
多くの社会的応用において、第一の限界は、新しい解を生成するのではなく、それらを評価することである。
本稿では, 単純かつ広く使用されているBest-of-N選択戦略と単純なテキスト勾配の組み合わせが, 標準 UCB 取得関数上の勾配の挙動を統計的にエミュレートすることを証明することで, この課題を克服する。
論文 参考訳(メタデータ) (2025-11-15T07:04:44Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - OptimAI: Optimization from Natural Language Using LLM-Powered AI Agents [8.441638148384389]
自然言語で記述された最適化問題を解くためのフレームワークであるOptimAIを紹介する。
私たちのフレームワークは、フォーミュラ、プランナー、コーダ、コード批判といった重要な役割の上に構築されています。
提案手法では,NLP4LPデータセットで88.1%,Optibenchデータセットで82.3%,エラー率で58%,エラー率で52%の精度を実現した。
論文 参考訳(メタデータ) (2025-04-23T17:45:05Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - EmPO: Emotion Grounding for Empathetic Response Generation through Preference Optimization [9.934277461349696]
共感反応生成は会話エージェントの望ましい側面である。
感情接地に基づく理論駆動の嗜好データセットを構築する新しい手法を提案する。
本研究では,LLMを一般性能を維持しつつ,好みの最適化により共感応答生成に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-06-27T10:41:22Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - SEE: Strategic Exploration and Exploitation for Cohesive In-Context Prompt Optimization [8.975505323004427]
大規模言語モデル(LLM)のための新しい結合型インコンテキストプロンプト最適化フレームワークを提案する。
SEEは、メタヒューリスティック最適化の原則を採用し、戦略的に探索と活用を行うスケーラブルで効率的なプロンプト最適化フレームワークである。
SEEは最先端のベースライン法を大幅に上回り、平均性能は13.94、計算コストは58.67である。
論文 参考訳(メタデータ) (2024-02-17T17:47:10Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Robust Prompt Optimization for Large Language Models Against
Distribution Shifts [80.6757997074956]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて重要な能力を示している。
本稿では,LLMの分散シフトに対するロバストな最適化法を提案する。
この問題は、ラベル付けされたソースグループに最適化されたプロンプトを同時にラベル付けされていないターゲットグループに一般化する必要がある。
論文 参考訳(メタデータ) (2023-05-23T11:30:43Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。