論文の概要: ADAPT: Actively Discovering and Adapting to Preferences for any Task
- arxiv url: http://arxiv.org/abs/2504.04040v1
- Date: Sat, 05 Apr 2025 03:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:10:10.525477
- Title: ADAPT: Actively Discovering and Adapting to Preferences for any Task
- Title(参考訳): ADAPT:任意のタスクの優先度を積極的に発見し、適応する
- Authors: Maithili Patel, Xavier Puig, Ruta Desai, Roozbeh Mottaghi, Sonia Chernova, Joanne Truong, Akshara Rai,
- Abstract要約: エージェントが様々な家庭のタスクにまたがってユーザの嗜好に順応する能力を評価するためのベンチマークを,アクティブな質問を通じて導入する。
次に,大規模言語モデルを積極的に質問するタスクに適用するための新しい訓練手法であるReflection-DPOを提案する。
従来のLLMは疑わしい質問や誘惑された嗜好への固執が不十分であったため,ADAPTにおけるユーザの嗜好に十分従わないことが判明した。
- 参考スコア(独自算出の注目度): 34.92667747380468
- License:
- Abstract: Assistive agents should be able to perform under-specified long-horizon tasks while respecting user preferences. We introduce Actively Discovering and Adapting to Preferences for any Task (ADAPT) -- a benchmark designed to evaluate agents' ability to adhere to user preferences across various household tasks through active questioning. Next, we propose Reflection-DPO, a novel training approach for adapting large language models (LLMs) to the task of active questioning. Reflection-DPO finetunes a 'student' LLM to follow the actions of a privileged 'teacher' LLM, and optionally ask a question to gather necessary information to better predict the teacher action. We find that prior approaches that use state-of-the-art LLMs fail to sufficiently follow user preferences in ADAPT due to insufficient questioning and poor adherence to elicited preferences. In contrast, Reflection-DPO achieves a higher rate of satisfying user preferences, outperforming a zero-shot chain-of-thought baseline by 6.1% on unseen users.
- Abstract(参考訳): 補助エージェントは、ユーザの嗜好を尊重しながら、特定されていない長期タスクを実行できるべきである。
アクティブな質問を通じて、各家庭のタスクにまたがるユーザの嗜好に順応するエージェントの能力を評価するために設計されたベンチマークであるADAPT(Actional Discovering and Adapting to Preferences for Any Task)を紹介する。
次に,大規模言語モデル(LLM)を積極的に問うタスクに適用するための新しいトレーニング手法であるReflection-DPOを提案する。
リフレクション-DPOは、特権を持つ「教師」 LLM の行動に従うために「学生」 LLM を微調整し、任意に、教師の行動をより正確に予測するために必要な情報を集めるよう質問する。
従来のLLMは疑わしい質問や誘惑された嗜好への固執が不十分であったため,ADAPTにおけるユーザの嗜好に十分従わないことが判明した。
これとは対照的に、Reflection-DPOはユーザの好みを満足する速度を高くし、ゼロショットチェーンのベースラインを6.1%上回っている。
関連論文リスト
- Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.11529841118671]
本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-04T07:17:54Z) - ULMRec: User-centric Large Language Model for Sequential Recommendation [16.494996929730927]
ユーザがカスタマイズした好みを大規模言語モデルに統合するフレームワークであるULMRecを提案する。
2つの公開データセットに対する大規模な実験は、ULMRecが既存の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-12-07T05:37:00Z) - Reinforced Prompt Personalization for Recommendation with Large Language Models [24.360796133889156]
本稿では,個々のユーザに対して個別のプロンプトをパーソナライズすることを目的とした,インスタンスワイドプロンプトの概念を紹介する。
効率と品質を向上させるため、RPPは単語ごとの単語を検索するのではなく、文レベルでプロンプトをパーソナライズする。
論文 参考訳(メタデータ) (2024-07-24T09:24:49Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文 参考訳(メタデータ) (2024-06-20T09:27:33Z) - Towards Hierarchical Multi-Agent Workflows for Zero-Shot Prompt Optimization [19.200989737492595]
大規模言語モデル(LLM)は、ユーザの質問に答える上で大きな進歩を見せている。
LLMの出力の品質はプロンプト設計に大きく依存しており、優れたプロンプトによってLLMが非常に難しい問題に正しく答えられる可能性がある。
LLMの階層構造を提案し、まず、正確な指示と正確な単語を階層的に生成し、次に、このプロンプトを用いてユーザクエリの最終回答を生成する。
論文 参考訳(メタデータ) (2024-05-30T17:05:45Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - The Shifted and The Overlooked: A Task-oriented Investigation of
User-GPT Interactions [114.67699010359637]
実際のユーザクエリの大規模なコレクションをGPTに解析する。
ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
論文 参考訳(メタデータ) (2023-10-19T02:12:17Z) - Improving Knowledge Extraction from LLMs for Task Learning through Agent
Analysis [4.055489363682198]
大規模言語モデル(LLM)は、タスク学習の知識源として大きな可能性を秘めている。
プロンプト工学は、LLMから知識を引き出すのに有効であることが示されているが、同時に、新しいタスクを具現化したエージェント学習のための、適切な、状況に根ざした知識を得るには不十分である。
本稿では,認知エージェントアプローチであるSTARSについて述べる。これは,迅速なエンジニアリングを拡張し,その制限を緩和し,エージェントがネイティブ言語能力,具体化,環境,ユーザ嗜好に適合する新たなタスク知識を取得できるようにする。
論文 参考訳(メタデータ) (2023-06-11T20:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。