論文の概要: Open-Universe Assistance Games
- arxiv url: http://arxiv.org/abs/2508.15119v1
- Date: Wed, 20 Aug 2025 23:07:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.120942
- Title: Open-Universe Assistance Games
- Title(参考訳): Open-Universe Assistance Games
- Authors: Rachel Ma, Jingyi Qu, Andreea Bobu, Dylan Hadfield-Menell,
- Abstract要約: GOODは、人間との対話中に自然言語形式で目標を抽出する、データ効率のよいオンライン手法である。
GOODはLLMに、異なる複雑な意図を持つユーザをシミュレートするよう促し、その応答を使用して、候補目標に対する確率的推論を実行する。
我々は、テキストベースの食料品ショッピングドメインと、テキスト操作型家庭用ロボット環境におけるGOODの評価を行った。
- 参考スコア(独自算出の注目度): 6.21910767424247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied AI agents must infer and act in an interpretable way on diverse human goals and preferences that are not predefined. To formalize this setting, we introduce Open-Universe Assistance Games (OU-AGs), a framework where the agent must reason over an unbounded and evolving space of possible goals. In this context, we introduce GOOD (GOals from Open-ended Dialogue), a data-efficient, online method that extracts goals in the form of natural language during an interaction with a human, and infers a distribution over natural language goals. GOOD prompts an LLM to simulate users with different complex intents, using its responses to perform probabilistic inference over candidate goals. This approach enables rich goal representations and uncertainty estimation without requiring large offline datasets. We evaluate GOOD in a text-based grocery shopping domain and in a text-operated simulated household robotics environment (AI2Thor), using synthetic user profiles. Our method outperforms a baseline without explicit goal tracking, as confirmed by both LLM-based and human evaluations.
- Abstract(参考訳): 身体化されたAIエージェントは、事前に定義されていない多様な人間の目標や好みを推論し、解釈可能な方法で行動しなければならない。
この設定を定式化するために,エージェントが未限定かつ進化する目標の空間を推論するフレームワークであるOpen-Universe Assistance Games (OU-AGs)を導入する。
この文脈では、GOOD (GOals from Open-ended Dialogue) は、人間との対話中に自然言語の形式で目標を抽出し、自然言語の目標に対する分布を推定する、データ効率のよいオンライン手法である。
GOODはLLMに、異なる複雑な意図を持つユーザをシミュレートするよう促し、その応答を使用して、候補目標に対する確率的推論を実行する。
このアプローチは、大規模なオフラインデータセットを必要とせずに、リッチな目標表現と不確実性推定を可能にする。
我々は、テキストベースの食料品ショッピングドメインと、テキスト操作型家庭用ロボット環境(AI2Thor)におけるGOODを、合成ユーザプロファイルを用いて評価した。
LLMに基づく評価と人的評価の両方で確認されたように,本手法は明確な目標追跡を伴わないベースラインよりも優れる。
関連論文リスト
- Goal Alignment in LLM-Based User Simulators for Conversational AI [14.771856490513194]
ユーザシミュレータは対話型AIにとって不可欠であり、シミュレートされたインタラクションを通じてスケーラブルなエージェント開発と評価を可能にする。
UGST(User Goal State Tracking)は,会話を通じてユーザ目標の進行を追跡する新しいフレームワークである。
本稿では,目標の進捗を自律的に追跡し,目標に沿った応答を生成するユーザシミュレータを開発するための3段階の方法論を提案する。
論文 参考訳(メタデータ) (2025-07-27T07:07:12Z) - Towards Anthropomorphic Conversational AI Part I: A Practical Framework [49.62013440962072]
会話に関わる人間の知性の重要な側面を再現するために設計されたマルチモジュールフレームワークを導入する。
アプローチの第2段階では、これらの会話データは、フィルタリングとラベル付けの後に、強化学習のためのトレーニングおよびテストデータとして機能する。
論文 参考訳(メタデータ) (2025-02-28T03:18:39Z) - Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。
未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。
まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。
インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z) - Goal Inference from Open-Ended Dialog [6.21910767424247]
本稿では,多様なユーザ目標を学習し,達成するためのエンボディエージェントのオンライン手法を提案する。
大規模言語モデルとの対話から自然言語目標表現を抽出する。
その結果,制約のない対話に基づいて,複雑な目標に対する不確実性を表現できることがわかった。
論文 参考訳(メタデータ) (2024-10-17T18:30:52Z) - Infer Human's Intentions Before Following Natural Language Instructions [24.197496779892383]
本研究では,協調作業における自然言語学習の改善を目的とした,ソーシャル・エンボダイド推論によるフォローインストラクション(FISER)を提案する。
我々のフレームワークは、中間的推論ステップとして、人間の目標と意図を明確に推論する。
行動計画を立てる前に、社会的推論を用いて人間の意図を明示的に推測することが、純粋にエンドツーエンドのアプローチを超えることを実証的に実証する。
論文 参考訳(メタデータ) (2024-09-26T17:19:49Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z) - A Computational Interface to Translate Strategic Intent from
Unstructured Language in a Low-Data Setting [7.2466963932212245]
我々は、構造化されていない言語戦略を目標や制約の形で実行可能な意図に翻訳できる計算インターフェースを構築した。
私たちは1000以上のサンプルのデータセットを収集し、言語戦略を対応する目標と制約にマッピングし、このデータセットに基づいてトレーニングされた私たちのモデルが、人間のインタプリタを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-08-17T16:11:07Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - Natural Language Specification of Reinforcement Learning Policies
through Differentiable Decision Trees [10.406631494442683]
人間-AIポリシー仕様は、人間がロボットの強化学習ポリシーを協調的に温めるための、我々が定義した新しい手順である。
我々は,自律エージェントの行動の初期化と解釈を可能にする,新しい協調フレームワークを開発した。
提案手法は,ドメイン探索コストを増大させることなく,未経験の自然言語仕様を利用することで,RLエージェントをウォームスタートさせる。
論文 参考訳(メタデータ) (2021-01-18T16:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。