論文の概要: Towards Full Delegation: Designing Ideal Agentic Behaviors for Travel Planning
- arxiv url: http://arxiv.org/abs/2411.13904v1
- Date: Thu, 21 Nov 2024 07:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:38.318805
- Title: Towards Full Delegation: Designing Ideal Agentic Behaviors for Travel Planning
- Title(参考訳): フルデリゲーションに向けて:旅行計画における理想的なエージェント行動の設計
- Authors: Song Jiang, Da JU, Andrew Cohen, Sasha Mitts, Aaron Foss, Justine T Kao, Xian Li, Yuandong Tian,
- Abstract要約: 本稿では,エージェントが優れたエージェント行動に追従すべき基準のリストであるAPECエージェントコンスティチューションを提案する。
APEC-Travelは、旅行者との対話を通じて、隠されたパーソナライズされたニーズを積極的に抽出する旅行計画エージェントである。
- 参考スコア(独自算出の注目度): 49.34098402103427
- License:
- Abstract: How are LLM-based agents used in the future? While many of the existing work on agents has focused on improving the performance of a specific family of objective and challenging tasks, in this work, we take a different perspective by thinking about full delegation: agents take over humans' routine decision-making processes and are trusted by humans to find solutions that fit people's personalized needs and are adaptive to ever-changing context. In order to achieve such a goal, the behavior of the agents, i.e., agentic behaviors, should be evaluated not only on their achievements (i.e., outcome evaluation), but also how they achieved that (i.e., procedure evaluation). For this, we propose APEC Agent Constitution, a list of criteria that an agent should follow for good agentic behaviors, including Accuracy, Proactivity, Efficiency and Credibility. To verify whether APEC aligns with human preferences, we develop APEC-Travel, a travel planning agent that proactively extracts hidden personalized needs via multi-round dialog with travelers. APEC-Travel is constructed purely from synthetic data generated by Llama3.1-405B-Instruct with a diverse set of travelers' persona to simulate rich distribution of dialogs. Iteratively fine-tuned to follow APEC Agent Constitution, APEC-Travel surpasses baselines by 20.7% on rule-based metrics and 9.1% on LLM-as-a-Judge scores across the constitution axes.
- Abstract(参考訳): LLMをベースとしたエージェントは今後どのように使われるのか?
エージェントは人間の日常的な意思決定プロセスを引き継ぎ、人々のパーソナライズされたニーズに適合し、絶えず変化する状況に適応するソリューションを見つけるために、人間に信頼されている。
このような目標を達成するために、エージェントの行動、すなわちエージェントの行動は、その達成(すなわち成果評価)だけでなく、その達成(すなわち、手続き評価)にも評価されるべきである。
そこで本研究では,APECエージェント・コンスティチューション(APECエージェント・コンスティチューション)を提案する。
我々は,APECが人間の嗜好に合致するかどうかを検証するために,旅行者との多ラウンド対話を通じて,隠されたパーソナライズされたニーズを積極的に抽出する旅行計画エージェントであるAPEC-Travelを開発した。
APEC-Travelは、Llama3.1-405B-Instructによって生成された合成データから純粋に構築される。
APECエージェント・コンスティチューションに従えば、APEC-Travelはルールベースの基準で20.7%、LLM-as-a-Judgeスコアで9.1%を超える。
関連論文リスト
- AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios [38.878966229688054]
本稿では,対話型シナリオを通して言語エージェントのソーシャルインテリジェンスをベンチマークするAgensSenseを紹介する。
ドラマティック理論に基づいて、エージェントセンスは、広範なスクリプトから構築された1,225の多様な社会的シナリオを作成するためにボトムアップアプローチを採用している。
我々はERG理論を用いて目標を分析し、包括的な実験を行う。
以上の結果から,LPMは複雑な社会シナリオ,特に高レベルの成長ニーズにおいて,目標達成に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-25T07:04:16Z) - Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance [95.03771007780976]
我々は、人間の指示なしにタスクを予測および開始できるプロアクティブエージェントを開発するという課題に取り組む。
まず,実世界の人的活動を収集し,前向きなタスク予測を生成する。
これらの予測は、ヒトのアノテータによって受け入れられるか拒否されるかのどちらかとしてラベル付けされる。
ラベル付きデータは、人間の判断をシミュレートする報酬モデルをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-10-16T08:24:09Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - PersonaGym: Evaluating Persona Agents and LLMs [47.75926334294358]
我々は、ペルソナエージェントを評価するための最初の動的評価フレームワークであるPersonaGymと、意思決定理論に基礎を置く最初の自動化ヒトアライメントメトリックであるPersonaScoreを紹介する。
200のペルソナと10,000の質問を含むベンチマークを用いて、6つのオープンでクローズドなLCMの評価を行ったところ、ペルソナエージェントの能力向上の可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-25T22:24:45Z) - Select to Perfect: Imitating desired behavior from large multi-agent data [28.145889065013687]
AIエージェントのDesired特徴は、望ましいスコアを割り当てることで表現できる。
まず,各エージェントの行動が集団的嗜好性スコアに及ぼす影響を評価する。
本稿では,エージェントの交換値の概念を提案する。これは,個々のエージェントの集団的望ましさスコアへの貢献を定量化するものである。
論文 参考訳(メタデータ) (2024-05-06T15:48:24Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Investigating Agency of LLMs in Human-AI Collaboration Tasks [24.562034082480608]
我々は社会認知理論に基づいて、エージェントが対話で表現される特徴の枠組みを構築する。
我々は、83人の人間と人間の協力的なインテリアデザインの会話のデータセットを収集する。
論文 参考訳(メタデータ) (2023-05-22T08:17:14Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - "I Don't Think So": Disagreement-Based Policy Summaries for Comparing
Agents [2.6270468656705765]
本稿では,エージェントのポリシーの違いを強調するコントラスト的な要約を生成する手法を提案する。
本結果から, 新規な不一致に基づく要約は, HighLIGHTS を用いた要約に比べてユーザパフォーマンスの向上につながることが示された。
論文 参考訳(メタデータ) (2021-02-05T09:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。