論文の概要: PersONAL: Towards a Comprehensive Benchmark for Personalized Embodied Agents
- arxiv url: http://arxiv.org/abs/2509.19843v1
- Date: Wed, 24 Sep 2025 07:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.72186
- Title: PersONAL: Towards a Comprehensive Benchmark for Personalized Embodied Agents
- Title(参考訳): PersONAL:パーソナライズされた身体的エージェントのための総合的ベンチマークを目指して
- Authors: Filippo Ziliotto, Jelin Raphael Akkara, Alessandro Daniele, Lamberto Ballan, Luciano Serafini, Tommaso Campari,
- Abstract要約: PersONALは、Embodied AIのパーソナライゼーションを研究するためのベンチマークである。
HM3Dデータセットから、30以上のフォトリアリスティックな家庭に2,000以上の高品質なエピソードを収録する。
ベンチマークでは,(1)見えない環境でのアクティブナビゲーション,(2)マップされたシーンでのオブジェクトグラウンドの2つの評価モードがサポートされている。
- 参考スコア(独自算出の注目度): 47.44972258523047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Embodied AI have enabled agents to perform increasingly complex tasks and adapt to diverse environments. However, deploying such agents in realistic human-centered scenarios, such as domestic households, remains challenging, particularly due to the difficulty of modeling individual human preferences and behaviors. In this work, we introduce PersONAL (PERSonalized Object Navigation And Localization, a comprehensive benchmark designed to study personalization in Embodied AI. Agents must identify, retrieve, and navigate to objects associated with specific users, responding to natural-language queries such as "find Lily's backpack". PersONAL comprises over 2,000 high-quality episodes across 30+ photorealistic homes from the HM3D dataset. Each episode includes a natural-language scene description with explicit associations between objects and their owners, requiring agents to reason over user-specific semantics. The benchmark supports two evaluation modes: (1) active navigation in unseen environments, and (2) object grounding in previously mapped scenes. Experiments with state-of-the-art baselines reveal a substantial gap to human performance, highlighting the need for embodied agents capable of perceiving, reasoning, and memorizing over personalized information; paving the way towards real-world assistive robot.
- Abstract(参考訳): Embodied AIの最近の進歩により、エージェントはますます複雑なタスクを実行し、多様な環境に適応できるようになった。
しかし、家庭などの現実的な人間中心のシナリオにそのようなエージェントを配置することは、特に個人の嗜好や行動のモデル化が困難であるため、依然として困難である。
本研究では,ペルソナル(PersONAL, PerSonalized Object Navigation and Localization)について紹介する。
エージェントは特定のユーザに関連するオブジェクトを特定し、検索し、ナビゲートし、"find Lily's backpack"のような自然言語クエリに応答する必要がある。
PersONALは、HM3Dデータセットから30以上のフォトリアリスティックな家庭で2000以上の高品質なエピソードで構成されている。
各エピソードには、オブジェクトと所有者の間に明確な関連性を持つ自然言語シーンの記述が含まれており、エージェントはユーザ固有のセマンティクスを推論する必要がある。
ベンチマークでは,(1)見えない環境でのアクティブナビゲーション,(2)マップされたシーンでのオブジェクトグラウンドの2つの評価モードがサポートされている。
最先端のベースラインを用いた実験は、人間のパフォーマンスに対する大きなギャップを明らかにし、パーソナライズされた情報を認識、推論、記憶できるエンボディエージェントの必要性を強調している。
関連論文リスト
- Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - Physical Reasoning and Object Planning for Household Embodied Agents [19.88210708022216]
我々はCommonSense Object Affordance Task (COAT)を紹介した。
COATは現実世界の環境における実践的な意思決定の複雑さに関する洞察を提供する。
コントリビューションには、3つの要因すべてに対する洞察に富んだ人間の嗜好マッピングと4つの広範囲なQAデータセットが含まれています。
論文 参考訳(メタデータ) (2023-11-22T18:32:03Z) - Find What You Want: Learning Demand-conditioned Object Attribute Space
for Demand-driven Navigation [5.106884746419666]
視覚オブジェクトナビゲーション(VON)のタスクは、特定のシーン内で特定のオブジェクトを特定できるエージェントの能力を含む。
現実のシナリオでは、これらの条件が常に満たされることを保証することはしばしば困難である。
本稿では,ユーザの要求をタスク命令として活用する,需要駆動ナビゲーション(DDN)を提案する。
論文 参考訳(メタデータ) (2023-09-15T04:07:57Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Embodied Scene-aware Human Pose Estimation [25.094152307452]
シーン認識型人間のポーズ推定手法を提案する。
本手法は, シミュレーション環境下でのグローバルな3次元人間のポーズを再現し, 因果関係の1段階である。
論文 参考訳(メタデータ) (2022-06-18T03:50:19Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。