論文の概要: Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions
- arxiv url: http://arxiv.org/abs/2205.13803v1
- Date: Fri, 27 May 2022 07:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 12:19:00.971272
- Title: Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions
- Title(参考訳): Bongard-HOI:人間と物体のインタラクションのためのFew-Shot Visual Reasoningのベンチマーク
- Authors: Huaizu Jiang, Xiaojian Ma, Weili Nie, Zhiding Yu, Yuke Zhu, Anima
Anandkumar
- Abstract要約: Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
- 参考スコア(独自算出の注目度): 90.02372398492454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A significant gap remains between today's visual pattern recognition models
and human-level visual cognition especially when it comes to few-shot learning
and compositional reasoning of novel concepts. We introduce Bongard-HOI, a new
visual reasoning benchmark that focuses on compositional learning of
human-object interactions (HOIs) from natural images. It is inspired by two
desirable characteristics from the classical Bongard problems (BPs): 1)
few-shot concept learning, and 2) context-dependent reasoning. We carefully
curate the few-shot instances with hard negatives, where positive and negative
images only disagree on action labels, making mere recognition of object
categories insufficient to complete our benchmarks. We also design multiple
test sets to systematically study the generalization of visual learning models,
where we vary the overlap of the HOI concepts between the training and test
sets of few-shot instances, from partial to no overlaps. Bongard-HOI presents a
substantial challenge to today's visual recognition models. The
state-of-the-art HOI detection model achieves only 62% accuracy on few-shot
binary prediction while even amateur human testers on MTurk have 91% accuracy.
With the Bongard-HOI benchmark, we hope to further advance research efforts in
visual reasoning, especially in holistic perception-reasoning systems and
better representation learning.
- Abstract(参考訳): 現代の視覚パターン認識モデルと人間レベルの視覚認知の間には、特に少数ショットの学習や新しい概念の構成的推論に関して、大きなギャップが残っている。
自然画像からの人-物間相互作用(HOI)の合成学習に焦点を当てた新しい視覚推論ベンチマークであるBongard-HOIを紹介する。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
1)数発のコンセプト学習,そして
2)文脈依存推論。
正負のイメージと負のイメージはアクションラベルにのみ一致しないため、ベンチマークを完了させるにはオブジェクトカテゴリの認識が不十分である。
また、複数のテストセットを設計して、視覚学習モデルの一般化を体系的に研究し、少数ショットインスタンスのトレーニングとテストセット間のHOI概念の重複を、部分的なオーバーラップから非重複に変化させる。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
最先端のhoi検出モデルは、わずかな二分予測では62%の精度しか得られないが、mturkのアマチュア人間テスターでさえ91%の精度を持つ。
Bongard-HOIベンチマークでは、視覚的推論、特に総合的な知覚推論システムとより良い表現学習における研究のさらなる進歩を期待する。
関連論文リスト
- Towards A Unified Neural Architecture for Visual Recognition and
Reasoning [40.938279131241764]
視覚認識と推論のための統一型ニューラルアーキテクチャを提案し,両者の汎用インターフェース(トークンなど)を提案する。
我々のフレームワークは、視覚的認識タスク、データセット、帰納的バイアスが、原則化された時間的推論機能を実現するのにどのように役立つかを調べることができる。
論文 参考訳(メタデータ) (2023-11-10T20:27:43Z) - Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World [57.832261258993526]
Bongard-OpenWorldは、マシンビジョンの実際の数ショット推論を評価するための新しいベンチマークである。
これは、現在の数発の推論アルゴリズムにすでに大きな課題を課している。
論文 参考訳(メタデータ) (2023-10-16T09:19:18Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文 参考訳(メタデータ) (2020-12-21T18:59:28Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。