論文の概要: InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot
Interactions
- arxiv url: http://arxiv.org/abs/2310.12147v1
- Date: Wed, 18 Oct 2023 17:57:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 11:28:26.626891
- Title: InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot
Interactions
- Title(参考訳): InViG:500万の人間-ロボットインタラクションによるインタラクティブなビジュアルグラウンドのベンチマーク
- Authors: Hanbo Zhang and Jie Xu and Yuchen Mo and Tao Kong
- Abstract要約: 言語あいまいさ下での対話型視覚グラウンドのための大規模データセットであるinvigを提示する。
我々のデータセットは、オープンな目標指向の曖昧さの対話を伴う520K以上の画像で構成されている。
私たちの知る限りでは、Invigデータセットは、オープンエンドのインタラクティブな視覚的グラウンドを解決するための、最初の大規模データセットです。
- 参考スコア(独自算出の注目度): 23.296139146133573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ambiguity is ubiquitous in human communication. Previous approaches in
Human-Robot Interaction (HRI) have often relied on predefined interaction
templates, leading to reduced performance in realistic and open-ended
scenarios. To address these issues, we present a large-scale dataset, \invig,
for interactive visual grounding under language ambiguity. Our dataset
comprises over 520K images accompanied by open-ended goal-oriented
disambiguation dialogues, encompassing millions of object instances and
corresponding question-answer pairs. Leveraging the \invig dataset, we conduct
extensive studies and propose a set of baseline solutions for end-to-end
interactive visual disambiguation and grounding, achieving a 45.6\% success
rate during validation. To the best of our knowledge, the \invig dataset is the
first large-scale dataset for resolving open-ended interactive visual
grounding, presenting a practical yet highly challenging benchmark for
ambiguity-aware HRI. Codes and datasets are available at:
\href{https://openivg.github.io}{https://openivg.github.io}.
- Abstract(参考訳): あいまいさは人間のコミュニケーションにおいて普遍的である。
HRI(Human-Robot Interaction)の従来のアプローチは、事前に定義されたインタラクションテンプレートに依存しており、現実的でオープンなシナリオのパフォーマンスが低下する。
これらの問題に対処するため,言語あいまいさ下でのインタラクティブな視覚的接地のための大規模データセット \invig を提案する。
我々のデータセットは、何百万ものオブジェクトインスタンスとそれに対応する質問応答ペアを含む、オープンな目標指向の曖昧な対話を伴う520K以上の画像で構成されている。
我々は,\invigデータセットを活用して,エンド・ツー・エンドのインタラクティブな視覚的な曖昧さと接地のためのベースラインソリューションを提案し,検証中に45.6\%の成功率を達成した。
我々の知る限り、 \invigデータセットは、オープンエンドのインタラクティブな視覚的グラウンドを解決するための最初の大規模なデータセットであり、あいまいさを意識したHRIのための実用的かつ非常に難しいベンチマークを提供する。
https://openivg.github.io}{https://openivg.github.io} コードとデータセットは以下のとおりである。
関連論文リスト
- Ask, Pose, Unite: Scaling Data Acquisition for Close Interactions with Vision Language Models [5.541130887628606]
密接な人間間相互作用における社会的ダイナミクスはヒューマンメッシュ推定(HME)に重大な課題をもたらす
本稿では,LVLM(Large Vision Language Models)を用いた新しいデータ生成手法を提案する。
この手法は、アノテーションの負担を軽減するだけでなく、HME内の密接な相互作用に適した包括的なデータセットの組み立てを可能にする。
論文 参考訳(メタデータ) (2024-10-01T01:14:24Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - PRESTO: A Multilingual Dataset for Parsing Realistic Task-Oriented
Dialogs [39.58414649004708]
PRESTOは、人間と仮想アシスタント間の550万以上のコンテキスト多言語会話のデータセットである。
現実のNLUタスクで発生する問題、例えば、障害、コードスイッチング、リビジョンなどが含まれる。
我々のmT5モデルに基づくベースラインは、PRESTOに存在する会話現象をモデル化することが困難であることを示している。
論文 参考訳(メタデータ) (2023-03-15T21:51:13Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal
Networks for HOI in videos [13.25502885135043]
ビデオから人間と物体の相互作用を分析すると、人間とビデオに存在する物体の関係が特定される。
映像中の複数の粒度の真理を効果的に捉え,視覚的特徴を学習するための階層的アプローチ LIGHTEN を提案する。
V-COCOにおける人間と物体の相互作用検出(88.9%と92.6%)とCAD-120の予測タスクおよび画像ベースHOI検出の競争結果の最先端化を実現した。
論文 参考訳(メタデータ) (2020-12-17T05:44:07Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。