論文の概要: Break Out the Silverware -- Semantic Understanding of Stored Household Items
- arxiv url: http://arxiv.org/abs/2512.23739v1
- Date: Thu, 25 Dec 2025 15:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.12121
- Title: Break Out the Silverware -- Semantic Understanding of Stored Household Items
- Title(参考訳): 銀器を分解する - 保存された家庭用品のセマンティックな理解-
- Authors: Michaela Levi-Richter, Reuth Mirsky, Oren Glickman,
- Abstract要約: Stored Household Item Challengeは、サービスロボットの認知能力を評価するためのベンチマークタスクである。
構造化シーン理解と大規模言語モデル推論を組み合わせたハイブリッドエージェントパイプラインであるNOAMを紹介する。
- 参考スコア(独自算出の注目度): 5.413873477820601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ``Bring me a plate.'' For domestic service robots, this simple command reveals a complex challenge: inferring where everyday items are stored, often out of sight in drawers, cabinets, or closets. Despite advances in vision and manipulation, robots still lack the commonsense reasoning needed to complete this task. We introduce the Stored Household Item Challenge, a benchmark task for evaluating service robots' cognitive capabilities: given a household scene and a queried item, predict its most likely storage location. Our benchmark includes two datasets: (1) a real-world evaluation set of 100 item-image pairs with human-annotated ground truth from participants' kitchens, and (2) a development set of 6,500 item-image pairs annotated with storage polygons over public kitchen images. These datasets support realistic modeling of household organization and enable comparative evaluation across agent architectures. To begin tackling this challenge, we introduce NOAM (Non-visible Object Allocation Model), a hybrid agent pipeline that combines structured scene understanding with large language model inference. NOAM converts visual input into natural language descriptions of spatial context and visible containers, then prompts a language model (e.g., GPT-4) to infer the most likely hidden storage location. This integrated vision-language agent exhibits emergent commonsense reasoning and is designed for modular deployment within broader robotic systems. We evaluate NOAM against baselines including random selection, vision-language pipelines (Grounding-DINO + SAM), leading multimodal models (e.g., Gemini, GPT-4o, Kosmos-2, LLaMA, Qwen), and human performance. NOAM significantly improves prediction accuracy and approaches human-level results, highlighting best practices for deploying cognitively capable agents in domestic environments.
- Abstract(参考訳): 皿をくれ。
家庭内サービスロボットにとって、この単純なコマンドは、毎日のアイテムがどこに保管されているか、引き出し、キャビネット、クローゼットで見当たらないことが多いか、という複雑な課題を浮き彫りにする。
視覚と操作の進歩にもかかわらず、ロボットはこのタスクを完了させるために必要な常識的な推論がまだ欠けている。
本稿では,サービスロボットの認知能力を評価するためのベンチマークタスクであるStored Household Item Challengeを紹介した。
本ベンチマークでは,(1) 参加者の台所から得られた実世界評価セット100点と,(2) 公衆のキッチン画像上の記憶ポリゴンを付加した6,500点のアイテムイメージペアの開発セットを含む。
これらのデータセットは、家庭用組織の現実的なモデリングをサポートし、エージェントアーキテクチャ間の比較評価を可能にする。
この課題に対処するために、構造化シーン理解と大規模言語モデル推論を組み合わせたハイブリッドエージェントパイプラインであるNOAM(Non-visible Object Allocation Model)を導入する。
NOAMは視覚入力を空間コンテキストと可視コンテナの自然言語記述に変換し、次に言語モデル(例えば、GPT-4)に最も隠れた場所を推測させる。
この統合視覚言語エージェントは、創発的な常識推論を示し、より広範なロボットシステム内のモジュール配置用に設計されている。
ランダム選択,視覚言語パイプライン(Grounding-DINO + SAM),指導的マルチモーダルモデル(例えば,Gemini,GPT-4o,Kosmos-2,LLaMA,Qwen),人的パフォーマンスなどに対するNOAMの評価を行った。
NOAMは、予測精度を大幅に改善し、人間レベルの結果にアプローチし、認知能力のあるエージェントを国内環境に展開するためのベストプラクティスを強調している。
関連論文リスト
- PersONAL: Towards a Comprehensive Benchmark for Personalized Embodied Agents [47.44972258523047]
PersONALは、Embodied AIのパーソナライゼーションを研究するためのベンチマークである。
HM3Dデータセットから、30以上のフォトリアリスティックな家庭に2,000以上の高品質なエピソードを収録する。
ベンチマークでは,(1)見えない環境でのアクティブナビゲーション,(2)マップされたシーンでのオブジェクトグラウンドの2つの評価モードがサポートされている。
論文 参考訳(メタデータ) (2025-09-24T07:39:16Z) - Plant in Cupboard, Orange on Rably, Inat Aphone. Benchmarking Incremental Learning of Situation and Language Model using a Text-Simulated Situated Environment [18.256529559741075]
大きな言語モデル(LLM)はエージェントシステムのキーコンポーネントとして機能し、それらの常識的な知識は、位置や具現化されたアクションのための言語ベースのプランナーとしての性能に大きく影響する。
LLMのインクリメンタル学習(環境からのフィードバックに基づく)を評価し,テキストベースの環境を用いてコンテキスト内学習能力を制御する。
その結果、より大きな商用モデルはオープンウェイトに比べて性能がかなり低いが、ほとんどのモデルは合成語実験に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-17T12:20:39Z) - Space-LLaVA: a Vision-Language Model Adapted to Extraterrestrial Applications [14.89043819048682]
宇宙ロボティクスのためのFMを構築する動機となる宇宙ロボティクスには,3つの課題がある。
宇宙基盤モデルへの第一歩として、3つの地球外データベースを微細なアノテーションで拡張する。
我々は、地球外環境のセマンティックな特徴に適応するために、ビジョン・ランゲージ・モデル(Vision-Language Model)を微調整する。
論文 参考訳(メタデータ) (2024-08-12T05:07:24Z) - Improving Zero-Shot ObjectNav with Generative Communication [60.84730028539513]
ゼロショットObjectNavの改良手法を提案する。
私たちのアプローチは、接地エージェントが制限され、時には障害のあるビューを持つ可能性があることを考慮に入れています。
論文 参考訳(メタデータ) (2024-08-03T22:55:26Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Kosmos-2: Grounding Multimodal Large Language Models to the World [107.27280175398089]
マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。
オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。
コードと事前訓練されたモデルはhttps://aka.ms/kosmos-2.comで入手できる。
論文 参考訳(メタデータ) (2023-06-26T16:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。