論文の概要: Personalized Robotic Object Rearrangement from Scene Context
- arxiv url: http://arxiv.org/abs/2505.11108v2
- Date: Thu, 26 Jun 2025 23:26:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 15:06:58.553733
- Title: Personalized Robotic Object Rearrangement from Scene Context
- Title(参考訳): シーンコンテキストからのパーソナライズされたロボットオブジェクト再構成
- Authors: Kartik Ramachandruni, Sonia Chernova,
- Abstract要約: 我々は、ユーザの組織的嗜好を学習するためのオブジェクト再構成ベンチマークであるPARSECを紹介する。
ParSECは、72人のユーザからクラウドソースされた110Kのアレンジメントの新たなデータセットの上に構築されている。
LLMに基づくパーソナライズされた再構成モデルであるContextSortLMを提案する。
- 参考スコア(独自算出の注目度): 7.422774471709236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object rearrangement is a key task for household robots requiring personalization without explicit instructions, meaningful object placement in environments occupied with objects, and generalization to unseen objects and new environments. To facilitate research addressing these challenges, we introduce PARSEC, an object rearrangement benchmark for learning user organizational preferences from observed scene context to place objects in a partially arranged environment. PARSEC is built upon a novel dataset of 110K rearrangement examples crowdsourced from 72 users, featuring 93 object categories and 15 environments. To better align with real-world organizational habits, we propose ContextSortLM, an LLM-based personalized rearrangement model that handles flexible user preferences by explicitly accounting for objects with multiple valid placement locations when placing items in partially arranged environments. We evaluate ContextSortLM and existing personalized rearrangement approaches on the PARSEC benchmark and complement these findings with a crowdsourced evaluation of 108 online raters ranking model predictions based on alignment with user preferences. Our results indicate that personalized rearrangement models leveraging multiple scene context sources perform better than models relying on a single context source. Moreover, ContextSortLM outperforms other models in placing objects to replicate the target user's arrangement and ranks among the top two in all three environment categories, as rated by online evaluators. Importantly, our evaluation highlights challenges associated with modeling environment semantics across different environment categories and provides recommendations for future work.
- Abstract(参考訳): オブジェクト配置は、明示的な指示なしにパーソナライズを必要とする家庭用ロボットにとって重要なタスクであり、オブジェクトが占有されている環境で意味のあるオブジェクト配置、そして見えないオブジェクトや新しい環境への一般化である。
これらの課題に対処するために,観測環境からユーザの組織的嗜好を学習し,部分的に配置された環境にオブジェクトを置くためのオブジェクト再構成ベンチマークであるPARSECを導入する。
PARSECは、72ユーザからクラウドソースされた110Kのアレンジメントの新たなデータセット上に構築されており、93のオブジェクトカテゴリと15の環境が特徴である。
LLMをベースとしたパーソナライズされたリ配置モデルであるContextSortLMを提案する。このモデルでは,アイテムを部分的に配置した環境に配置する際に,複数の有効な配置位置を持つオブジェクトを明示的に勘定することで,フレキシブルなユーザ嗜好を処理する。
我々は、PARSECベンチマーク上でContextSortLMおよび既存のパーソナライズされた再配置手法を評価し、これらの知見を、ユーザの好みに合わせた108のオンラインレーダランキングモデル予測のクラウドソースによる評価で補完する。
以上の結果から,複数のシーン・コンテキスト・ソースを利用するパーソナライズド・アレンジメント・モデルの方が,単一のコンテキスト・ソースに依存するモデルよりも優れていることが示唆された。
さらに、ContextSortLMは、ターゲットユーザーの配置を再現するオブジェクトを配置する他のモデルよりも優れており、オンライン評価者によって評価されるように、3つの環境カテゴリで上位2つにランク付けされている。
本評価では,環境カテゴリーの異なる環境セマンティクスをモデル化する上での課題を強調し,今後の課題を推奨する。
関連論文リスト
- Composed Object Retrieval: Object-level Retrieval via Composed Expressions [71.47650333199628]
Composed Object Retrieval (COR)は、画像レベルの検索を超えてオブジェクトレベルの精度を達成するための新しいタスクである。
COR127KはCORの最初の大規模ベンチマークであり、408カテゴリの様々な意味変換を持つ127,166個の検索三重項を含む。
また、参照領域エンコーディング、適応型視覚・テキストインタラクション、および領域レベルのコントラスト学習を統合した統合エンドツーエンドモデルであるCOREを提案する。
論文 参考訳(メタデータ) (2025-08-06T13:11:40Z) - ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models [10.858627659431928]
サービスロボットは、機能を強化するために、未知のオブジェクトを効果的に認識し、セグメント化する必要がある。
従来の教師付き学習ベースのセグメンテーション技術は、広範な注釈付きデータセットを必要とする。
本稿では,セグメンテーションアプライスモデル (SAM) の強力なゼロショット能力と,自己監督型視覚変換器 (ViT) からの明示的な視覚表現を活用することで,UOISを解く新しいアプローチ (ZISVFM) を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:22:20Z) - ULMRec: User-centric Large Language Model for Sequential Recommendation [16.494996929730927]
ユーザがカスタマイズした好みを大規模言語モデルに統合するフレームワークであるULMRecを提案する。
2つの公開データセットに対する大規模な実験は、ULMRecが既存の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-12-07T05:37:00Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Go-SLAM: Grounded Object Segmentation and Localization with Gaussian Splatting SLAM [12.934788858420752]
Go-SLAMは動的環境の再構築に3DガウススティングSLAMを利用する新しいフレームワークである。
本システムは,自然言語記述によるオブジェクトの検索を容易にする。
論文 参考訳(メタデータ) (2024-09-25T13:56:08Z) - Learning-To-Rank Approach for Identifying Everyday Objects Using a
Physical-World Search Engine [0.8749675983608172]
我々は,オープン語彙のユーザ命令から対象オブジェクトをループで検索する作業に焦点をあてる。
本稿では,学習からランクの物理オブジェクトタスクのための新しいアプローチであるMultiRankItを提案する。
論文 参考訳(メタデータ) (2023-12-26T01:40:31Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Context-Aware Indoor Point Cloud Object Generation through User Instructions [6.398660996031915]
本稿では,その周辺環境とシームレスに統合された点雲オブジェクトを生成することができる,新しいエンドツーエンドのマルチモーダルディープニューラルネットワークを提案する。
我々のモデルは、これまで見えなかったオブジェクトレイアウトで新しい環境を作成できるようにすることで、シーン修正に革命をもたらす。
論文 参考訳(メタデータ) (2023-11-26T06:40:16Z) - Object-centric Inference for Language Conditioned Placement: A
Foundation Model based Approach [12.016988248578027]
本稿では,ロボットが言語命令の空間的制約をすべて満たした配置を生成するための,言語条件付きオブジェクト配置の課題に焦点を当てる。
提案するオブジェクト中心フレームワークは,参照対象と配置空間の関係を基底として基礎モデルを利用する。
論文 参考訳(メタデータ) (2023-04-06T06:51:15Z) - AssetField: Assets Mining and Reconfiguration in Ground Feature Plane
Representation [111.59786941545774]
AssetFieldは、新しいニューラルシーン表現で、シーンを表現するためにオブジェクト対応のグラウンド特徴面のセットを学習する。
AssetFieldは、新しいシーン構成のためのリアルなレンダリングを生成するとともに、新規ビュー合成のための競争性能を実現する。
論文 参考訳(メタデータ) (2023-03-24T12:18:10Z) - Neural Constraint Satisfaction: Hierarchical Abstraction for
Combinatorial Generalization in Object Rearrangement [75.9289887536165]
基礎となるエンティティを明らかにするための階層的抽象化手法を提案する。
本研究では,エージェントのモデルにおける実体の状態の介入と,環境中の物体に作用する状態の対応関係を学習する方法を示す。
この対応を利用して、オブジェクトの異なる数や構成に一般化する制御法を開発する。
論文 参考訳(メタデータ) (2023-03-20T18:19:36Z) - SE(3)-Equivariant Relational Rearrangement with Neural Descriptor Fields [39.562247503513156]
本稿では,任意のポーズで新規オブジェクトインスタンス間の空間的関係を含むタスクを実行する手法を提案する。
私たちのフレームワークは、5-10のデモだけで新しいタスクを指定できるスケーラブルな方法を提供する。
本手法は,シミュレーションにおける3つのマルチオブジェクト再構成タスクと実ロボットを用いて試験を行う。
論文 参考訳(メタデータ) (2022-11-17T18:55:42Z) - Rearrangement: A Challenge for Embodied AI [229.8891614821016]
Embodied AIの研究と評価のためのフレームワークについて述べる。
我々の提案は正統的な課題である再配置に基づいている。
4つの異なるシミュレーション環境における再配置シナリオの実験的なテストベッドについて述べる。
論文 参考訳(メタデータ) (2020-11-03T19:42:32Z) - ObjectNav Revisited: On Evaluation of Embodied Agents Navigating to
Objects [119.46959413000594]
この文書は、ObjectNavのワーキンググループのコンセンサスレコメンデーションを要約します。
評価基準の微妙だが重要な詳細について推奨する。
CVPR 2020のEmbodied AIワークショップで実施された課題において、これらの推奨事項のインスタンス化について、詳細な説明を行う。
論文 参考訳(メタデータ) (2020-06-23T17:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。