論文の概要: RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open
Environments
- arxiv url: http://arxiv.org/abs/2310.17290v1
- Date: Thu, 26 Oct 2023 10:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 20:59:20.616197
- Title: RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open
Environments
- Title(参考訳): RIO: オープン環境における意図指向オブジェクトの推論のためのベンチマーク
- Authors: Mengxue Qu, Yu Wu, Wu Liu, Xiaodan Liang, Jingkuan Song, Yao Zhao,
Yunchao Wei
- Abstract要約: 我々はReasoning Intention-Oriented Objects (RIO)と呼ばれる包括的なデータセットを構築する。
RIOは、様々な現実世界のシナリオと幅広いオブジェクトカテゴリを統合するように設計されている。
オープン環境で意図指向オブジェクトを推論する既存モデルの能力を評価する。
- 参考スコア(独自算出の注目度): 170.43912741137655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intention-oriented object detection aims to detect desired objects based on
specific intentions or requirements. For instance, when we desire to "lie down
and rest", we instinctively seek out a suitable option such as a "bed" or a
"sofa" that can fulfill our needs. Previous work in this area is limited either
by the number of intention descriptions or by the affordance vocabulary
available for intention objects. These limitations make it challenging to
handle intentions in open environments effectively. To facilitate this
research, we construct a comprehensive dataset called Reasoning
Intention-Oriented Objects (RIO). In particular, RIO is specifically designed
to incorporate diverse real-world scenarios and a wide range of object
categories. It offers the following key features: 1) intention descriptions in
RIO are represented as natural sentences rather than a mere word or verb
phrase, making them more practical and meaningful; 2) the intention
descriptions are contextually relevant to the scene, enabling a broader range
of potential functionalities associated with the objects; 3) the dataset
comprises a total of 40,214 images and 130,585 intention-object pairs. With the
proposed RIO, we evaluate the ability of some existing models to reason
intention-oriented objects in open environments.
- Abstract(参考訳): 意図指向オブジェクト検出は、特定の意図や要求に基づいて、望ましいオブジェクトを検出することを目的としている。
例えば、私たちが「落ち着き、休む」ことを望むとき、私たちは本能的に、ニーズを満たす「ベッド」や「ソファー」のような適切な選択肢を探します。
この分野における以前の作業は、意図記述の個数か、意図対象に対して使用可能なアフォーマンス語彙によって制限されている。
これらの制限により、オープン環境での意図を効果的に扱うことが困難になる。
本研究では,Reasoning Intention-Oriented Objects (RIO) と呼ばれる包括的データセットを構築する。
特に、ROOは様々な現実世界のシナリオと幅広いオブジェクトカテゴリを統合するように設計されています。
主な特徴は以下のとおりである。
1)リオの意図記述は,単に単語又は動詞句ではなく自然文として表現され,より実用的で有意義である。
2)意図記述は,シーンと文脈的に関連し,対象に関連する潜在的な機能の範囲を広げることができる。
3)データセットは、合計40,214の画像と130,585の意図オブジェクト対からなる。
提案したROOにより,オープン環境における意図指向オブジェクトを推論する既存モデルの能力を評価する。
関連論文リスト
- Chat-3D v2: Bridging 3D Scene and Large Language Models with Object
Identifiers [62.232809030044116]
会話中にオブジェクトを自由に参照するためにオブジェクト識別子を導入する。
本稿では,属性認識トークンと関係認識トークンを各オブジェクトに対して学習する2段階アライメント手法を提案する。
ScanQA、ScanRefer、Nr3D/Sr3Dといった従来のデータセットで行った実験は、提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Physical Reasoning and Object Planning for Household Embodied Agents [21.719773664308683]
我々はCommonSense Object Affordance Task (COAT)を紹介した。
COATは現実世界の環境における実践的な意思決定の複雑さに関する洞察を提供する。
私たちのコントリビューションには、最初の考慮事項に対処する洞察に富んだObject-Utilityマッピングと、2つの広範なQAデータセットが含まれています。
論文 参考訳(メタデータ) (2023-11-22T18:32:03Z) - Find What You Want: Learning Demand-conditioned Object Attribute Space
for Demand-driven Navigation [5.106884746419666]
視覚オブジェクトナビゲーション(VON)のタスクは、特定のシーン内で特定のオブジェクトを特定できるエージェントの能力を含む。
現実のシナリオでは、これらの条件が常に満たされることを保証することはしばしば困難である。
本稿では,ユーザの要求をタスク命令として活用する,需要駆動ナビゲーション(DDN)を提案する。
論文 参考訳(メタデータ) (2023-09-15T04:07:57Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Open-Set Object Detection Using Classification-free Object Proposal and
Instance-level Contrastive Learning [25.935629339091697]
オープンセットオブジェクト検出(OSOD)は、オブジェクトと背景分離、オープンセットオブジェクト分類という2つのサブタスクからなる問題を処理するための有望な方向である。
我々は,OSODの課題に対処するため,Openset RCNNを提案する。
我々のOpenset RCNNは、散らばった環境下でロボットの並べ替えタスクをサポートするオープンセットの知覚能力でロボットを支援できることを示します。
論文 参考訳(メタデータ) (2022-11-21T15:00:04Z) - SORNet: Spatial Object-Centric Representations for Sequential
Manipulation [39.88239245446054]
シーケンシャルな操作タスクでは、ロボットが環境の状態を認識し、望ましい目標状態につながる一連のアクションを計画する必要がある。
本研究では,対象対象の標準視に基づくRGB画像からオブジェクト中心表現を抽出するSORNetを提案する。
論文 参考訳(メタデータ) (2021-09-08T19:36:29Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - ObjectNav Revisited: On Evaluation of Embodied Agents Navigating to
Objects [119.46959413000594]
この文書は、ObjectNavのワーキンググループのコンセンサスレコメンデーションを要約します。
評価基準の微妙だが重要な詳細について推奨する。
CVPR 2020のEmbodied AIワークショップで実施された課題において、これらの推奨事項のインスタンス化について、詳細な説明を行う。
論文 参考訳(メタデータ) (2020-06-23T17:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。