論文の概要: Incremental Object Grounding Using Scene Graphs
- arxiv url: http://arxiv.org/abs/2201.01901v1
- Date: Thu, 6 Jan 2022 02:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-07 20:25:00.855493
- Title: Incremental Object Grounding Using Scene Graphs
- Title(参考訳): シーングラフを用いたインクリメンタルオブジェクトグラウンド
- Authors: John Seon Keun Yi, Yoonwoo Kim, Sonia Chernova
- Abstract要約: 本稿では,シーングラフから得られたセマンティックデータに基づいて,エージェントが関連する質問を行えるようにすることで,人間の参照表現を曖昧にすることを目的とする。
本稿では,画像シーングラフからのセマンティックデータと,言語シーングラフから人力によるグラウンドオブジェクトへの言語構造を用いた曖昧なモデルである,シーングラフを用いたインクリメンタルグラウンド(IGSG)を提案する。
- 参考スコア(独自算出の注目度): 15.914199054779441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object grounding tasks aim to locate the target object in an image through
verbal communications. Understanding human command is an important process
needed for effective human-robot communication. However, this is challenging
because human commands can be ambiguous and erroneous. This paper aims to
disambiguate the human's referring expressions by allowing the agent to ask
relevant questions based on semantic data obtained from scene graphs. We test
if our agent can use relations between objects from a scene graph to ask
semantically relevant questions that can disambiguate the original user
command. In this paper, we present Incremental Grounding using Scene Graphs
(IGSG), a disambiguation model that uses semantic data from an image scene
graph and linguistic structures from a language scene graph to ground objects
based on human command. Compared to the baseline, IGSG shows promising results
in complex real-world scenes where there are multiple identical target objects.
IGSG can effectively disambiguate ambiguous or wrong referring expressions by
asking disambiguating questions back to the user.
- Abstract(参考訳): オブジェクトグラウンディングタスクは、言葉によるコミュニケーションを通じて、画像中の対象物を見つけることを目的としている。
ヒューマンコマンドを理解することは、効果的なヒューマンロボットコミュニケーションに必要な重要なプロセスである。
しかし、人間の命令は曖昧で誤っているため、これは難しい。
本稿では,シーングラフから得られた意味データに基づいて,エージェントが関連する質問を行うことにより,人間の参照表現の曖昧さを解消することを目的とする。
エージェントがシーングラフからのオブジェクト間の関係を利用して、元のユーザコマンドを曖昧にする意味的な質問をすることができるかどうかをテストする。
本稿では,画像シーングラフからのセマンティックデータと,言語シーングラフから人力によるグラウンドオブジェクトへの言語構造を用いた曖昧なモデルである,シーングラフを用いたインクリメンタルグラウンド(IGSG)を提案する。
IGSGはベースラインと比較して、複数の同一対象物が存在する複雑な現実世界のシーンで有望な結果を示す。
IGSGは、ユーザに対して曖昧な質問をすることで、曖昧さや間違った参照表現を効果的に曖昧にすることができる。
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - PROGrasp: Pragmatic Human-Robot Communication for Object Grasping [22.182690439449278]
対話型オブジェクトグラスピング(IOG)は、人間とロボットの自然言語による対話を通じて、望ましいオブジェクトを識別し、把握するタスクである。
Pragmatic-IOG タスクとそれに対応するデータセット Intention-oriented Multi-Modal Dialogue (IM-Dial) を導入する。
Prograspは、視覚的なグラウンドニング、質問、オブジェクトの把握、そして最も重要なのは、実用的推論の解答解釈のモジュールを組み込むことで、Pragmatic-IOGを実行する。
論文 参考訳(メタデータ) (2023-09-14T14:45:47Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - DoRO: Disambiguation of referred object for embodied agents [6.27526761544378]
既存の作業では、固定ビューと静的ロボットに適した視覚ベースのタスクグラウンドとあいまいさ検出が使用されている。
DoROは、インボダイドされたエージェントが、必要に応じて適切なクエリを上げることで、参照オブジェクトを曖昧にするのに役立つ。
AI2Thorシミュレータで行った実験によると、DoROはあいまいさをより正確に検出するだけでなく、より正確な情報でクエリを上げる。
論文 参考訳(メタデータ) (2022-07-28T16:21:19Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - Scene Graph Reasoning for Visual Question Answering [23.57543808056452]
本研究では,シーン内に存在するオブジェクトとその意味的・空間的関係に基づいて,コンテキスト駆動型シーケンシャルな推論を行うことにより,タスクにアプローチする手法を提案する。
強化エージェントは、抽出されたシーングラフを自律的にナビゲートして、回答を導出する基礎となるパスを生成する。
論文 参考訳(メタデータ) (2020-07-02T13:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。