論文の概要: Program Synthesis Dialog Agents for Interactive Decision-Making
- arxiv url: http://arxiv.org/abs/2502.19610v2
- Date: Mon, 17 Mar 2025 18:13:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:12:28.534895
- Title: Program Synthesis Dialog Agents for Interactive Decision-Making
- Title(参考訳): 対話型意思決定のためのプログラム合成ダイアログエージェント
- Authors: Matthew Toles, Nikhil Balwani, Rattandeep Singh, Valentina Giulia Sartori Rodriguez, Zhou Yu,
- Abstract要約: 本研究では,インタラクティブな意思決定を通じて,社会的利益の機会に対するユーザの適性を決定するための新しいベンチマークであるBeNYfitsを提案する。
実験の結果, GPT-4o は ReAct-style chain-of- Thought を用いて35.7 F1 しか得点できなかった。
我々のエージェントであるProADAは、ほぼ同じ数のダイアログターンを維持しながら、F1スコアを55.6に改善します。
- 参考スコア(独自算出の注目度): 15.76727860626721
- License:
- Abstract: Many real-world eligibility problems, ranging from medical diagnosis to tax planning, can be mapped to decision problems expressed in natural language, wherein a model must make a binary choice based on user features. Large-scale domains such as legal codes or frequently updated funding opportunities render human annotation (e.g., web forms or decision trees) impractical, highlighting the need for agents that can automatically assist in decision-making. Since relevant information is often only known to the user, it is crucial that these agents ask the right questions. As agents determine when to terminate a conversation, they face a trade-off between accuracy and the number of questions asked, a key metric for both user experience and cost. To evaluate this task, we propose BeNYfits, a new benchmark for determining user eligibility for multiple overlapping social benefits opportunities through interactive decision-making. Our experiments show that current language models struggle with frequent hallucinations, with GPT-4o scoring only 35.7 F1 using a ReAct-style chain-of-thought. To address this, we introduce ProADA, a novel approach that leverages program synthesis to assist in decision-making by mapping dialog planning to a code generation problem and using gaps in structured data to determine the best next action. Our agent, ProADA, improves the F1 score to 55.6 while maintaining nearly the same number of dialog turns.
- Abstract(参考訳): 医療診断から税制計画まで、多くの現実世界の適格性問題は、自然言語で表される決定問題にマッピングすることができる。
法典や頻繁に更新される資金機会のような大規模ドメインでは、人間のアノテーション(例えば、Webフォームや決定木)は非現実的であり、意思決定を自動支援できるエージェントの必要性を強調している。
関連情報はしばしばユーザだけが知っているため、これらのエージェントが正しい質問をすることが不可欠である。
エージェントがいつ会話を終了するかを決めると、正確さと質問数とのトレードオフに直面します。
この課題を評価するために,インタラクティブな意思決定を通じて,複数の重複する社会的利益の機会に対するユーザの適性を決定する新しいベンチマークであるBeNYfitsを提案する。
実験の結果, GPT-4o は ReAct-style chain-of-thinkt を用いて35.7 F1 しか得点できなかった。
この問題を解決するために,プログラム合成を活用して,コード生成問題にダイアログ計画をマッピングし,構造化データのギャップを利用して最適な次のアクションを決定することによって,意思決定を支援する新しいアプローチであるProADAを導入する。
我々のエージェントであるProADAは、ほぼ同じ数のダイアログターンを維持しながら、F1スコアを55.6に改善します。
関連論文リスト
- ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents [11.118991548784459]
大規模言語モデル(LLM)ベースのエージェントは、ますます外部環境との対話に使われている。
現在のフレームワークでは、これらのエージェントがユーザと対話してタスクの詳細を調整できない。
この作業では、タスク指向の"会話型"エージェントを構築する上で不可欠なスキルを組み合わせた、新しいフレームワークであるReSpActを紹介します。
論文 参考訳(メタデータ) (2024-11-01T15:57:45Z) - ChatSOP: An SOP-Guided MCTS Planning Framework for Controllable LLM Dialogue Agents [52.7201882529976]
対話エージェントの制御性を高めるため,SOP誘導モンテカルロ木探索(MCTS)計画フレームワークを提案する。
これを実現するために、GPT-4oを用いた半自動ロールプレイシステムを用いて、SOPアノテーション付きマルチシナリオ対話からなるデータセットをキュレートする。
また、SOP予測のための教師付き微調整と思考の連鎖推論を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T12:23:02Z) - Hello Again! LLM-powered Personalized Agent for Long-term Dialogue [63.65128176360345]
モデルに依存しない長期対話エージェント(LD-Agent)を導入する。
イベント認識、ペルソナ抽出、応答生成のための3つの独立した調整可能なモジュールが組み込まれている。
LD-Agentの有効性, 汎用性, クロスドメイン性について実験的に検証した。
論文 参考訳(メタデータ) (2024-06-09T21:58:32Z) - Hallucination-minimized Data-to-answer Framework for Financial
Decision-makers [1.3781777926017094]
大規模言語モデル(LLM)は、いくつかの自動化とパーソナライズされた質問応答プロトタイプの構築に応用されている。
本稿では,データテーブルを階層的なテキストデータチャンクに変換するLangchainベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-09T22:53:52Z) - Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。
当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。
LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:11Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - Decision-Oriented Dialogue for Human-AI Collaboration [62.367222979251444]
そこでは,大規模言語モデル(LM)のようなAIアシスタントが,自然言語を介して複数の人間と協調して複雑な意思決定を行うための,意思決定指向対話と呼ばれるタスクのクラスについて述べる。
日常的な意思決定に直面する3つの領域を定式化し,(1)レビュアーの会議論文への課題の選択,(2)都市における複数段階の旅程の計画,(3)友人集団の旅行計画の交渉を行う。
各タスクに対して、エージェントが到達した最終決定の質に基づいて報酬を受け取る対話環境を構築する。
論文 参考訳(メタデータ) (2023-05-31T17:50:02Z) - Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation
with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。
PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文 参考訳(メタデータ) (2022-08-16T17:17:53Z) - Partner Matters! An Empirical Study on Fusing Personas for Personalized
Response Selection in Retrieval-Based Chatbots [51.091235903442715]
本稿では,自己とパートナーの話者が応答選択の課題に与える影響について検討する。
4つのペルソナ融合戦略が設計されており、異なる方法でペルソナがコンテキストや応答と相互作用することを前提としている。
Persona-Chatデータセットに関する実証研究は、パートナーペルソナが応答選択の精度を向上させることができることを示している。
論文 参考訳(メタデータ) (2021-05-19T10:32:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。