論文の概要: Goal Inference from Open-Ended Dialog
- arxiv url: http://arxiv.org/abs/2410.13957v1
- Date: Thu, 17 Oct 2024 18:30:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:09.529313
- Title: Goal Inference from Open-Ended Dialog
- Title(参考訳): オープンエンディングダイアログからのゴール推論
- Authors: Rachel Ma, Jingyi Qu, Andreea Bobu, Dylan Hadfield-Menell,
- Abstract要約: 本稿では,多様なユーザ目標を学習し,達成するためのエンボディエージェントのオンライン手法を提案する。
大規模言語モデルとの対話から自然言語目標表現を抽出する。
その結果,制約のない対話に基づいて,複雑な目標に対する不確実性を表現できることがわかった。
- 参考スコア(独自算出の注目度): 6.21910767424247
- License:
- Abstract: We present an online method for embodied agents to learn and accomplish diverse user goals. While offline methods like RLHF can represent various goals but require large datasets, our approach achieves similar flexibility with online efficiency. We extract natural language goal representations from conversations with Large Language Models (LLMs). We prompt an LLM to role play as a human with different goals and use the corresponding likelihoods to run Bayesian inference over potential goals. As a result, our method can represent uncertainty over complex goals based on unrestricted dialog. We evaluate our method in grocery shopping and home robot assistance domains using a text-based interface and AI2Thor simulation respectively. Results show our method outperforms ablation baselines that lack either explicit goal representation or probabilistic inference.
- Abstract(参考訳): 本稿では,多様なユーザ目標を学習し,達成するためのエンボディエージェントのオンライン手法を提案する。
RLHFのようなオフラインメソッドは様々な目標を表現できるが、大きなデータセットを必要とする。
本研究では,Large Language Models (LLM) との対話から,自然言語の目標表現を抽出する。
我々は、LLMに異なる目標を持つ人間としての役割を指示し、それに対応する可能性を使って、潜在的な目標に対してベイズ的推論を実行する。
その結果,制約のない対話に基づいて,複雑な目標に対する不確実性を表現できることがわかった。
我々は,本手法を,テキストベースインタフェースとAI2Thorシミュレーションを用いて,買い物やホームロボット支援の分野で評価した。
その結果,本手法は,明示的な目標表現や確率的推論を欠いたアブレーションベースラインよりも優れていた。
関連論文リスト
- Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - DecisionNCE: Embodied Multimodal Representations via Implicit Preference Learning [27.705230758809094]
マルチモーダル・プレトレーニングは,自律型ロボットにおける表現学習の目標のトリニティのための効果的な戦略である。
画像シーケンスから意味のあるタスク進行情報を同時に抽出できる統一目的を提案する。
DecisionNCEは、ローカルおよびグローバルなタスク進行機能の両方をエレガントに抽出する、具体化された表現学習フレームワークを提供する。
論文 参考訳(メタデータ) (2024-02-28T07:58:24Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - Context-Aware Language Modeling for Goal-Oriented Dialogue Systems [84.65707332816353]
我々は、部分的に観察されたマルコフ決定過程としてゴール指向対話を定式化する。
目的を意識して言語モデルを微調整する,シンプルで効果的な手法を考案する。
本研究では,AirDialogue を用いた実践的なフライト予約タスクについて評価する。
論文 参考訳(メタデータ) (2022-04-18T17:23:11Z) - A Streaming End-to-End Framework For Spoken Language Understanding [11.58499117295424]
オンラインおよびインクリメンタルな方法で複数の意図を処理できるストリーミング・エンド・ツー・エンドのフレームワークを提案する。
提案手法はFluent Speech Commandsデータセット上で評価し,意図検出精度は全マルチインテント設定で約97%である。
論文 参考訳(メタデータ) (2021-05-20T21:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。