論文の概要: AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment
- arxiv url: http://arxiv.org/abs/2506.04089v1
- Date: Wed, 04 Jun 2025 15:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.432361
- Title: AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment
- Title(参考訳): AmbiK: キッチン環境におけるあいまいなタスクのデータセット
- Authors: Anastasiia Ivanova, Eva Bakaeva, Zoya Volovikova, Alexey K. Kovalev, Aleksandr I. Panov,
- Abstract要約: 本研究では,キッチン環境におけるロボットへのあいまいな指示のデータセットであるAmbiK(Ambiguous Tasks in Kitchen Environment)を提案する。
1000組のあいまいなタスクとそのあいまいなタスクで構成され、あいまいさタイプ(Human Preferences、Common Sense Knowledge、Safety)に分類される。
AmbiKは、研究者があいまいさ検出方法の統一的な比較を行うことを可能にすることを願っている。
- 参考スコア(独自算出の注目度): 39.58317527488534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a part of an embodied agent, Large Language Models (LLMs) are typically used for behavior planning given natural language instructions from the user. However, dealing with ambiguous instructions in real-world environments remains a challenge for LLMs. Various methods for task ambiguity detection have been proposed. However, it is difficult to compare them because they are tested on different datasets and there is no universal benchmark. For this reason, we propose AmbiK (Ambiguous Tasks in Kitchen Environment), the fully textual dataset of ambiguous instructions addressed to a robot in a kitchen environment. AmbiK was collected with the assistance of LLMs and is human-validated. It comprises 1000 pairs of ambiguous tasks and their unambiguous counterparts, categorized by ambiguity type (Human Preferences, Common Sense Knowledge, Safety), with environment descriptions, clarifying questions and answers, user intents, and task plans, for a total of 2000 tasks. We hope that AmbiK will enable researchers to perform a unified comparison of ambiguity detection methods. AmbiK is available at https://github.com/cog-model/AmbiK-dataset.
- Abstract(参考訳): エンボディエージェントの一部として、Large Language Models (LLM) は、通常、ユーザから自然言語命令を与えられた振る舞い計画に使用される。
しかし、実環境におけるあいまいな指示を扱うことは、LLMにとって依然として課題である。
タスクのあいまいさ検出のための様々な手法が提案されている。
しかし、異なるデータセットでテストされており、普遍的なベンチマークがないため、比較することは困難である。
そこで我々は,キッチン環境におけるロボットに宛てたあいまいな指示の完全なテキストデータセットであるAmbiK(Ambiguous Tasks in Kitchen Environment)を提案する。
AmbiK は LLM の助けを借りて収集され、人間による検証を受けている。
1000対のあいまいなタスクとそのあいまいなタスク(Human Preferences、Common Sense Knowledge、Safety)と、環境の説明、質問と回答の明確化、ユーザ意図、タスクプランを、合計2000のタスクで分類する。
AmbiKは、研究者があいまいさ検出方法の統一的な比較を行うことを可能にすることを願っている。
AmbiKはhttps://github.com/cog-model/AmbiK-dataset.comで入手できる。
関連論文リスト
- MuRAL: A Multi-Resident Ambient Sensor Dataset Annotated with Natural Language for Activities of Daily Living [4.187145402358247]
自然言語を用いた最初のマルチレジデント・アンビエント・センサ・データセットであるMuRALを紹介する。
Muralには、きめ細かい自然言語の記述、常駐のアイデンティティ、ハイレベルなアクティビティラベルが添付されている。
我々は、課題割り当て、アクション記述、アクティビティ分類の3つのコアタスクに対して、最先端のLLMを用いてMuRALをベンチマークする。
論文 参考訳(メタデータ) (2025-04-29T07:46:14Z) - AMBROSIA: A Benchmark for Parsing Ambiguous Questions into Database Queries [56.82807063333088]
我々は,新たなベンチマークであるAMBROSIAを導入し,テキスト・ツー・オープン・プログラムの開発を促進することを期待する。
私たちのデータセットには、3種類のあいまいさ(スコープのあいまいさ、アタッチメントのあいまいさ、あいまいさ)を示す質問が含まれている。
いずれの場合も、データベースのコンテキストが提供されてもあいまいさは持続する。
これは、スクラッチからデータベースを制御して生成する、新しいアプローチによって実現される。
論文 参考訳(メタデータ) (2024-06-27T10:43:04Z) - Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data [26.004807291215258]
言語条件付きロボット操作は、複雑なタスクを理解し実行することができるロボットを開発することを目的としている。
基本スキルの事前知識と非構造化データに基づく模倣学習を組み合わせた汎用的言語条件付き手法を提案する。
ゼロショット設定を用いてシミュレーション環境と実環境の両方におけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-05-30T14:40:38Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Is the Elephant Flying? Resolving Ambiguities in Text-to-Image
Generative Models [64.58271886337826]
テキストから画像への生成モデルで生じるあいまいさについて検討する。
本稿では,ユーザから明確化を求めることによって,システムに与えられるプロンプトのあいまいさを軽減する枠組みを提案する。
論文 参考訳(メタデータ) (2022-11-17T17:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。