論文の概要: PersONAL: Towards a Comprehensive Benchmark for Personalized Embodied Agents
- arxiv url: http://arxiv.org/abs/2509.19843v1
- Date: Wed, 24 Sep 2025 07:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.72186
- Title: PersONAL: Towards a Comprehensive Benchmark for Personalized Embodied Agents
- Title(参考訳): PersONAL:パーソナライズされた身体的エージェントのための総合的ベンチマークを目指して
- Authors: Filippo Ziliotto, Jelin Raphael Akkara, Alessandro Daniele, Lamberto Ballan, Luciano Serafini, Tommaso Campari,
- Abstract要約: PersONALは、Embodied AIのパーソナライゼーションを研究するためのベンチマークである。
HM3Dデータセットから、30以上のフォトリアリスティックな家庭に2,000以上の高品質なエピソードを収録する。
ベンチマークでは,(1)見えない環境でのアクティブナビゲーション,(2)マップされたシーンでのオブジェクトグラウンドの2つの評価モードがサポートされている。
- 参考スコア(独自算出の注目度): 47.44972258523047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Embodied AI have enabled agents to perform increasingly complex tasks and adapt to diverse environments. However, deploying such agents in realistic human-centered scenarios, such as domestic households, remains challenging, particularly due to the difficulty of modeling individual human preferences and behaviors. In this work, we introduce PersONAL (PERSonalized Object Navigation And Localization, a comprehensive benchmark designed to study personalization in Embodied AI. Agents must identify, retrieve, and navigate to objects associated with specific users, responding to natural-language queries such as "find Lily's backpack". PersONAL comprises over 2,000 high-quality episodes across 30+ photorealistic homes from the HM3D dataset. Each episode includes a natural-language scene description with explicit associations between objects and their owners, requiring agents to reason over user-specific semantics. The benchmark supports two evaluation modes: (1) active navigation in unseen environments, and (2) object grounding in previously mapped scenes. Experiments with state-of-the-art baselines reveal a substantial gap to human performance, highlighting the need for embodied agents capable of perceiving, reasoning, and memorizing over personalized information; paving the way towards real-world assistive robot.
- Abstract(参考訳): Embodied AIの最近の進歩により、エージェントはますます複雑なタスクを実行し、多様な環境に適応できるようになった。
しかし、家庭などの現実的な人間中心のシナリオにそのようなエージェントを配置することは、特に個人の嗜好や行動のモデル化が困難であるため、依然として困難である。
本研究では,ペルソナル(PersONAL, PerSonalized Object Navigation and Localization)について紹介する。
エージェントは特定のユーザに関連するオブジェクトを特定し、検索し、ナビゲートし、"find Lily's backpack"のような自然言語クエリに応答する必要がある。
PersONALは、HM3Dデータセットから30以上のフォトリアリスティックな家庭で2000以上の高品質なエピソードで構成されている。
各エピソードには、オブジェクトと所有者の間に明確な関連性を持つ自然言語シーンの記述が含まれており、エージェントはユーザ固有のセマンティクスを推論する必要がある。
ベンチマークでは,(1)見えない環境でのアクティブナビゲーション,(2)マップされたシーンでのオブジェクトグラウンドの2つの評価モードがサポートされている。
最先端のベースラインを用いた実験は、人間のパフォーマンスに対する大きなギャップを明らかにし、パーソナライズされた情報を認識、推論、記憶できるエンボディエージェントの必要性を強調している。
関連論文リスト
- EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents [85.77432303199176]
EmbodMocapは2つの動くiPhoneを使ったポータブルで安価なデータ収集パイプラインである。
私たちのキーとなるアイデアは、二重RGB-Dシーケンスを共同で校正し、人間とシーンの両方を再構築することです。
収集したデータに基づいて、我々は3つの具体的AIタスクを強化した: モノクラーヒューマン・シーン・リコンストラクション(モノクラーヒューマン・シーン・リコンストラクション)、メトリックスケールで世界空間に整合した人間とシーンを出力するフィードフォワードモデル、物理ベースのキャラクターアニメーション。
論文 参考訳(メタデータ) (2026-02-26T16:53:41Z) - Break Out the Silverware -- Semantic Understanding of Stored Household Items [5.413873477820601]
Stored Household Item Challengeは、サービスロボットの認知能力を評価するためのベンチマークタスクである。
構造化シーン理解と大規模言語モデル推論を組み合わせたハイブリッドエージェントパイプラインであるNOAMを紹介する。
論文 参考訳(メタデータ) (2025-12-25T15:21:49Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments [44.6372390798904]
本稿では,特定の個人オブジェクトの位置と到達を具体化するタスクデノマイトされたパーソナライズされたパーソナライズドインスタンスベースのナビゲーション(PIN)を提案する。
各エピソードにおいて、ターゲットオブジェクトは、中性背景上の視覚的参照画像のセットと手動による注釈付きテキスト記述の2つのモードを使用してエージェントに提示される。
論文 参考訳(メタデータ) (2024-10-23T18:01:09Z) - Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - Physical Reasoning and Object Planning for Household Embodied Agents [19.88210708022216]
我々はCommonSense Object Affordance Task (COAT)を紹介した。
COATは現実世界の環境における実践的な意思決定の複雑さに関する洞察を提供する。
コントリビューションには、3つの要因すべてに対する洞察に富んだ人間の嗜好マッピングと4つの広範囲なQAデータセットが含まれています。
論文 参考訳(メタデータ) (2023-11-22T18:32:03Z) - Find What You Want: Learning Demand-conditioned Object Attribute Space
for Demand-driven Navigation [5.106884746419666]
視覚オブジェクトナビゲーション(VON)のタスクは、特定のシーン内で特定のオブジェクトを特定できるエージェントの能力を含む。
現実のシナリオでは、これらの条件が常に満たされることを保証することはしばしば困難である。
本稿では,ユーザの要求をタスク命令として活用する,需要駆動ナビゲーション(DDN)を提案する。
論文 参考訳(メタデータ) (2023-09-15T04:07:57Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Embodied Scene-aware Human Pose Estimation [25.094152307452]
シーン認識型人間のポーズ推定手法を提案する。
本手法は, シミュレーション環境下でのグローバルな3次元人間のポーズを再現し, 因果関係の1段階である。
論文 参考訳(メタデータ) (2022-06-18T03:50:19Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。