論文の概要: RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open
Environments
- arxiv url: http://arxiv.org/abs/2310.17290v1
- Date: Thu, 26 Oct 2023 10:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 20:59:20.616197
- Title: RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open
Environments
- Title(参考訳): RIO: オープン環境における意図指向オブジェクトの推論のためのベンチマーク
- Authors: Mengxue Qu, Yu Wu, Wu Liu, Xiaodan Liang, Jingkuan Song, Yao Zhao,
Yunchao Wei
- Abstract要約: 我々はReasoning Intention-Oriented Objects (RIO)と呼ばれる包括的なデータセットを構築する。
RIOは、様々な現実世界のシナリオと幅広いオブジェクトカテゴリを統合するように設計されている。
オープン環境で意図指向オブジェクトを推論する既存モデルの能力を評価する。
- 参考スコア(独自算出の注目度): 170.43912741137655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intention-oriented object detection aims to detect desired objects based on
specific intentions or requirements. For instance, when we desire to "lie down
and rest", we instinctively seek out a suitable option such as a "bed" or a
"sofa" that can fulfill our needs. Previous work in this area is limited either
by the number of intention descriptions or by the affordance vocabulary
available for intention objects. These limitations make it challenging to
handle intentions in open environments effectively. To facilitate this
research, we construct a comprehensive dataset called Reasoning
Intention-Oriented Objects (RIO). In particular, RIO is specifically designed
to incorporate diverse real-world scenarios and a wide range of object
categories. It offers the following key features: 1) intention descriptions in
RIO are represented as natural sentences rather than a mere word or verb
phrase, making them more practical and meaningful; 2) the intention
descriptions are contextually relevant to the scene, enabling a broader range
of potential functionalities associated with the objects; 3) the dataset
comprises a total of 40,214 images and 130,585 intention-object pairs. With the
proposed RIO, we evaluate the ability of some existing models to reason
intention-oriented objects in open environments.
- Abstract(参考訳): 意図指向オブジェクト検出は、特定の意図や要求に基づいて、望ましいオブジェクトを検出することを目的としている。
例えば、私たちが「落ち着き、休む」ことを望むとき、私たちは本能的に、ニーズを満たす「ベッド」や「ソファー」のような適切な選択肢を探します。
この分野における以前の作業は、意図記述の個数か、意図対象に対して使用可能なアフォーマンス語彙によって制限されている。
これらの制限により、オープン環境での意図を効果的に扱うことが困難になる。
本研究では,Reasoning Intention-Oriented Objects (RIO) と呼ばれる包括的データセットを構築する。
特に、ROOは様々な現実世界のシナリオと幅広いオブジェクトカテゴリを統合するように設計されています。
主な特徴は以下のとおりである。
1)リオの意図記述は,単に単語又は動詞句ではなく自然文として表現され,より実用的で有意義である。
2)意図記述は,シーンと文脈的に関連し,対象に関連する潜在的な機能の範囲を広げることができる。
3)データセットは、合計40,214の画像と130,585の意図オブジェクト対からなる。
提案したROOにより,オープン環境における意図指向オブジェクトを推論する既存モデルの能力を評価する。
関連論文リスト
- Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments [44.6372390798904]
本稿では,特定の個人オブジェクトの位置と到達を具体化するタスクデノマイトされたパーソナライズされたパーソナライズドインスタンスベースのナビゲーション(PIN)を提案する。
各エピソードにおいて、ターゲットオブジェクトは、中性背景上の視覚的参照画像のセットと手動による注釈付きテキスト記述の2つのモードを使用してエージェントに提示される。
論文 参考訳(メタデータ) (2024-10-23T18:01:09Z) - Go-SLAM: Grounded Object Segmentation and Localization with Gaussian Splatting SLAM [12.934788858420752]
Go-SLAMは動的環境の再構築に3DガウススティングSLAMを利用する新しいフレームワークである。
本システムは,自然言語記述によるオブジェクトの検索を容易にする。
論文 参考訳(メタデータ) (2024-09-25T13:56:08Z) - OpenObj: Open-Vocabulary Object-Level Neural Radiance Fields with Fine-Grained Understanding [21.64446104872021]
オープンな語彙を持つオブジェクトレベルのニューラルフィールドを構築するための革新的なアプローチであるOpenを紹介します。
本質的にOpenは、オブジェクトレベルでの効率的かつ水密なシーンモデリングと理解のための堅牢なフレームワークを確立します。
複数のデータセットの結果から、Openはゼロショットセマンティクスおよび検索タスクにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-06-12T08:59:33Z) - Generative Region-Language Pretraining for Open-Ended Object Detection [55.42484781608621]
我々は,高密度物体を検出し,その名前を自由形式の方法で生成できるGenerateUというフレームワークを提案する。
本フレームワークはオープン語彙オブジェクト検出手法GLIPに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2024-03-15T10:52:39Z) - Find What You Want: Learning Demand-conditioned Object Attribute Space
for Demand-driven Navigation [5.106884746419666]
視覚オブジェクトナビゲーション(VON)のタスクは、特定のシーン内で特定のオブジェクトを特定できるエージェントの能力を含む。
現実のシナリオでは、これらの条件が常に満たされることを保証することはしばしば困難である。
本稿では,ユーザの要求をタスク命令として活用する,需要駆動ナビゲーション(DDN)を提案する。
論文 参考訳(メタデータ) (2023-09-15T04:07:57Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - SORNet: Spatial Object-Centric Representations for Sequential
Manipulation [39.88239245446054]
シーケンシャルな操作タスクでは、ロボットが環境の状態を認識し、望ましい目標状態につながる一連のアクションを計画する必要がある。
本研究では,対象対象の標準視に基づくRGB画像からオブジェクト中心表現を抽出するSORNetを提案する。
論文 参考訳(メタデータ) (2021-09-08T19:36:29Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - ObjectNav Revisited: On Evaluation of Embodied Agents Navigating to
Objects [119.46959413000594]
この文書は、ObjectNavのワーキンググループのコンセンサスレコメンデーションを要約します。
評価基準の微妙だが重要な詳細について推奨する。
CVPR 2020のEmbodied AIワークショップで実施された課題において、これらの推奨事項のインスタンス化について、詳細な説明を行う。
論文 参考訳(メタデータ) (2020-06-23T17:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。