論文の概要: WorldAfford: Affordance Grounding based on Natural Language Instructions
- arxiv url: http://arxiv.org/abs/2405.12461v1
- Date: Tue, 21 May 2024 02:37:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 14:28:21.103698
- Title: WorldAfford: Affordance Grounding based on Natural Language Instructions
- Title(参考訳): WorldAfford: 自然言語のインストラクションに基づくAffordance Grounding
- Authors: Changmao Chen, Yuren Cong, Zhen Kan,
- Abstract要約: Affordance Groundingは、与えられた指示に従ってシーンイメージ内の操作対象のインタラクション領域をローカライズすることを目的としている。
本稿では,自然言語の指示に基づく新たな手頃なグラウンド化の課題について紹介する。
SAMとCLIPを用いて画像内の割当知識に関連するオブジェクトをローカライズする。
- 参考スコア(独自算出の注目度): 4.4269011841945085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affordance grounding aims to localize the interaction regions for the manipulated objects in the scene image according to given instructions. A critical challenge in affordance grounding is that the embodied agent should understand human instructions and analyze which tools in the environment can be used, as well as how to use these tools to accomplish the instructions. Most recent works primarily supports simple action labels as input instructions for localizing affordance regions, failing to capture complex human objectives. Moreover, these approaches typically identify affordance regions of only a single object in object-centric images, ignoring the object context and struggling to localize affordance regions of multiple objects in complex scenes for practical applications. To address this concern, for the first time, we introduce a new task of affordance grounding based on natural language instructions, extending it from previously using simple labels for complex human instructions. For this new task, we propose a new framework, WorldAfford. We design a novel Affordance Reasoning Chain-of-Thought Prompting to reason about affordance knowledge from LLMs more precisely and logically. Subsequently, we use SAM and CLIP to localize the objects related to the affordance knowledge in the image. We identify the affordance regions of the objects through an affordance region localization module. To benchmark this new task and validate our framework, an affordance grounding dataset, LLMaFF, is constructed. We conduct extensive experiments to verify that WorldAfford performs state-of-the-art on both the previous AGD20K and the new LLMaFF dataset. In particular, WorldAfford can localize the affordance regions of multiple objects and provide an alternative when objects in the environment cannot fully match the given instruction.
- Abstract(参考訳): Affordance Groundingは、与えられた指示に従ってシーンイメージ内の操作対象のインタラクション領域をローカライズすることを目的としている。
空き地における重要な課題は、具体化されたエージェントが人間の指示を理解し、どの環境のツールが使えるかを分析し、これらのツールを使って指示を達成するかである。
最近の研究は、手頃な地域をローカライズするための入力命令として、単純なアクションラベルを主にサポートしており、複雑な人間の目的を捉えていない。
さらに、これらのアプローチは一般的に、オブジェクト中心の画像中の1つのオブジェクトのみの空き領域を特定し、オブジェクトコンテキストを無視し、複雑なシーンにおける複数のオブジェクトの空き領域を、実用的な用途のためにローカライズするのに苦労する。
この問題に対処するため,我々は,自然言語命令に基づく新たな手頃なグラウンド化のタスクを初めて導入した。
この新たな課題に対して、我々はWorldAffordという新しいフレームワークを提案する。
我々は, LLMs の余剰知識をより正確かつ論理的に推論するために, 小説 Affordance Reasoning Chain-of-Thought Prompting を設計する。
その後、SAMとCLIPを用いて画像内の空き知識に関連するオブジェクトをローカライズする。
本研究では,空き領域ローカライゼーションモジュールを用いて,対象物の空き領域を同定する。
この新たなタスクをベンチマークし、我々のフレームワークを検証するために、空き基盤データセットLLMaFFを構築した。
我々は、WorldAffordが以前のAGD20KとLLMaFFデータセットの両方で最先端の処理を行っていることを検証するために、広範な実験を行う。
特にWorldAffordは、複数のオブジェクトの空き領域をローカライズすることができ、環境内のオブジェクトが与えられた命令と完全に一致しない場合に代替手段を提供する。
関連論文リスト
- OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models [16.50443396055173]
ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。
まず,大規模言語モデルの推論能力を解き明かし,提案するオブジェクトを自然言語命令から抽出する。
次に、大規模視覚言語モデルの一般化可能性を活用して、シーンから候補対象を積極的に発見し、検出する。
論文 参考訳(メタデータ) (2024-02-16T13:21:33Z) - ECEA: Extensible Co-Existing Attention for Few-Shot Object Detection [52.16237548064387]
Few-shot Object Detection (FSOD) は、非常に少数のアノテーション付きサンプルからオブジェクトを識別する。
近年のFSOD法の多くは、2段階の学習パラダイムを適用しており、このパラダイムは豊富なベースクラスから学んだ知識を、グローバルな特徴を学習することで、数発の検知を補助する。
本研究では,局所的な部分に応じて大域的オブジェクトを推論するための拡張可能共存注意(ECEA)モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-15T06:55:43Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - MOST: Multiple Object localization with Self-supervised Transformers for
object discovery [97.47075050779085]
自己教師型トランスフォーマー(MOST)を用いた複数オブジェクトのローカライゼーションを提案する。
MOSTは、自己教師付き学習を用いて訓練されたトランスフォーマーの機能を使用して、実世界の画像に複数のオブジェクトをローカライズする。
対象検出器の自己教師付き事前学習にはMOSTが有効であり, 半教師付きオブジェクト検出と非教師付き領域提案生成において一貫した改善が得られた。
論文 参考訳(メタデータ) (2023-04-11T17:57:27Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - FindIt: Generalized Localization with Natural Language Queries [43.07139534653485]
FindItは、さまざまな視覚的グラウンドとローカライゼーションタスクを統合する、シンプルで汎用的なフレームワークである。
我々のアーキテクチャの鍵は、異なるローカライゼーション要求を統一する効率的なマルチスケール融合モジュールである。
エンドツーエンドのトレーニング可能なフレームワークは、幅広い参照表現、ローカライゼーション、検出クエリに柔軟かつ正確に対応します。
論文 参考訳(メタデータ) (2022-03-31T17:59:30Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z) - Few-shot Object Grounding and Mapping for Natural Language Robot
Instruction Following [15.896892723068932]
本稿では,ロボットのポリシーを学習して自然言語の指示に従うという課題について考察する。
本稿では,拡張現実データから学習した数発の言語条件オブジェクトグラウンドティング手法を提案する。
オブジェクトの位置とその指示された使用を符号化した学習地図表現を提示し、この数発のグラウンドアウトプットから構築する。
論文 参考訳(メタデータ) (2020-11-14T20:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。