論文の概要: SHOP-VRB: A Visual Reasoning Benchmark for Object Perception
- arxiv url: http://arxiv.org/abs/2004.02673v1
- Date: Mon, 6 Apr 2020 13:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 05:26:10.036553
- Title: SHOP-VRB: A Visual Reasoning Benchmark for Object Perception
- Title(参考訳): SHOP-VRB:オブジェクト認識のためのビジュアル推論ベンチマーク
- Authors: Michal Nazarczuk and Krystian Mikolajczyk
- Abstract要約: ロボット工学応用における視覚的推論のためのアプローチとベンチマークを提案する。
視覚データとテキストデータからオブジェクトプロパティを推測することに注力する。
シンボリックプログラム実行に基づく推論システムを提案する。
- 参考スコア(独自算出の注目度): 26.422761228628698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present an approach and a benchmark for visual reasoning in
robotics applications, in particular small object grasping and manipulation.
The approach and benchmark are focused on inferring object properties from
visual and text data. It concerns small household objects with their
properties, functionality, natural language descriptions as well as
question-answer pairs for visual reasoning queries along with their
corresponding scene semantic representations. We also present a method for
generating synthetic data which allows to extend the benchmark to other objects
or scenes and propose an evaluation protocol that is more challenging than in
the existing datasets. We propose a reasoning system based on symbolic program
execution. A disentangled representation of the visual and textual inputs is
obtained and used to execute symbolic programs that represent a 'reasoning
process' of the algorithm. We perform a set of experiments on the proposed
benchmark and compare to results for the state of the art methods. These
results expose the shortcomings of the existing benchmarks that may lead to
misleading conclusions on the actual performance of the visual reasoning
systems.
- Abstract(参考訳): 本稿では,ロボット応用,特に小型物体の把持と操作における視覚推論のアプローチとベンチマークについて述べる。
アプローチとベンチマークは、ビジュアルデータとテキストデータからオブジェクトプロパティを推測することに焦点を当てている。
それは、その特性、機能、自然言語記述、および視覚的推論クエリのためのクェリ・アンワーペアと対応するシーン意味表現を持つ、小さな家庭用オブジェクトに関するものである。
また、他のオブジェクトやシーンにベンチマークを拡張可能な合成データを生成する方法を提案し、既存のデータセットよりも難しい評価プロトコルを提案する。
シンボリックプログラム実行に基づく推論システムを提案する。
視覚入力とテキスト入力の絡み合った表現を求め、アルゴリズムの「合理化プロセス」を表すシンボリックプログラムの実行に用いる。
提案したベンチマークで一連の実験を行い,その結果と比較した。
これらの結果は、視覚的推論システムの実際の性能に関する誤解を招く可能性のある既存のベンチマークの欠点を明らかにする。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Do Text-to-Vis Benchmarks Test Real Use of Visualisations? [11.442971909006657]
本稿では,ベンチマークデータセットと公開リポジトリのコードを比較した実証的研究を通じて,ベンチマークが実世界の利用を反映しているかどうかを考察する。
その結果,実世界の実例と同一のチャート型,属性,行動の分布を評価できないという,大きなギャップがあることが判明した。
1つのデータセットは代表的であるが、実用的なエンドツーエンドベンチマークになるには広範囲な修正が必要である。
これは、ユーザの視覚的ニーズに本当に対処するシステムの開発をサポートするために、新しいベンチマークが必要であることを示している。
論文 参考訳(メタデータ) (2024-07-29T06:13:28Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - XAI Benchmark for Visual Explanation [15.687509357300847]
人間の説明アノテーションを持つ8つのデータセットからなる視覚的説明のためのベンチマークを開発する。
データ読み込み、説明生成、メソッド評価を含む視覚的説明パイプラインを考案する。
提案するベンチマークは,視覚的説明手法の公正な評価と比較を容易にする。
論文 参考訳(メタデータ) (2023-10-12T17:26:16Z) - Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know
How to Reason? [30.16956370267339]
視覚質問応答のタスクに対する視覚的表現を評価するためのプロトコルを提案する。
視覚的特徴抽出を推論から分離するために,特定の注意に基づく推論モジュールを設計する。
局所的な特徴を密に抽出した2種類の視覚表現とオブジェクト中心の視覚表現を、基底真理を用いた完全な画像表現の性能と比較する。
論文 参考訳(メタデータ) (2022-12-20T14:36:45Z) - Doubly Right Object Recognition: A Why Prompt for Visual Rationales [28.408764714247837]
コンピュータビジョンモデルがそれらの予測に正しい合理性を与えることができるかどうかを考察する。
そこでは,モデルが正しいラベルと正しい理性の両方を同時に生成する必要がある。
論文 参考訳(メタデータ) (2022-12-12T19:25:45Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Referring Expression Comprehension: A Survey of Methods and Datasets [20.42495629501261]
Referring Expression comprehension (REC) は、自然言語で表現された参照表現によって記述された画像中の対象物をローカライズすることを目的としている。
まず,問題に対する近代的アプローチを比較検討する。
構造化グラフ表現と相互作用するモジュラーアーキテクチャとグラフベースモデルについて論じる。
論文 参考訳(メタデータ) (2020-07-19T01:45:02Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。