論文の概要: Support-Set Context Matters for Bongard Problems
- arxiv url: http://arxiv.org/abs/2309.03468v2
- Date: Sun, 01 Dec 2024 00:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 16:56:53.042344
- Title: Support-Set Context Matters for Bongard Problems
- Title(参考訳): ボナード問題に対するサポートセットコンテキスト
- Authors: Nikhil Raghuraman, Adam W. Harley, Leonidas Guibas,
- Abstract要約: ボナード問題(英: Bongard problem)とは、正負のイメージと負のイメージの集合から抽象的な「概念」を導出する必要があるIQテストの一種である。
現在の機械学習手法は、IQテストの一種であるボンガード問題を解くのに苦労している。
従来の作業よりも大幅に向上し,Bongard-LOGOとBongard-HOIの精度が向上した。
- 参考スコア(独自算出の注目度): 7.996325307599679
- License:
- Abstract: Current machine learning methods struggle to solve Bongard problems, which are a type of IQ test that requires deriving an abstract "concept" from a set of positive and negative "support" images, and then classifying whether or not a new query image depicts the key concept. On Bongard-HOI, a benchmark for natural-image Bongard problems, most existing methods have reached at best 69% accuracy (where chance is 50%). Low accuracy is often attributed to neural nets' lack of ability to find human-like symbolic rules. In this work, we point out that many existing methods are forfeiting accuracy due to a much simpler problem: they do not adapt image features given information contained in the support set as a whole, and rely instead on information extracted from individual supports. This is a critical issue, because the "key concept" in a typical Bongard problem can often only be distinguished using multiple positives and multiple negatives. We explore simple methods to incorporate this context and show substantial gains over prior works, leading to new state-of-the-art accuracy on Bongard-LOGO (75.3%) and Bongard-HOI (76.4%) compared to methods with equivalent vision backbone architectures and strong performance on the original Bongard problem set (60.8%).
- Abstract(参考訳): 現在の機械学習手法では、正負の"サポート"イメージから抽象的な"概念"を導出し、新しいクエリイメージが鍵となる概念を表現しているかどうかを分類する必要があるIQテストの一種であるボンガードの問題を解決するのに苦労している。
自然像のボナード問題のベンチマークであるBongard-HOIでは、ほとんどの既存の手法が69%の精度(確率50%)に達している。
低い精度は、ニューラルネットが人間のようなシンボリックルールを見つける能力の欠如に起因していることが多い。
本研究は,既存の多くの手法が,サポートセットに含まれる所定の情報に適応せず,個々のサポートから抽出した情報に依存するという,より単純な問題により精度を低下させていることを指摘する。
典型的なボンガード問題における「鍵概念」は、しばしば複数の正と複数の負で区別される。
我々は、この文脈を取り入れた単純な手法を探究し、ボナード-LOGO (75.3%) とボンガード-HOI (76.4%) の最先端の精度を、同等の視覚バックボーンアーキテクチャを持つ手法と、オリジナルのボナード問題セット (60.8%) の強い性能と比較した。
関連論文リスト
- Few-Shot Learning from Augmented Label-Uncertain Queries in Bongard-HOI [23.704284537118543]
本稿では,クエリ入力の多様性を高めるために,ラベル不確実なクエリ拡張手法を提案する。
提案手法は,Bongard-HOIベンチマークにおいて68.74%の精度でSOTA(State-of-the-art)性能を実現する。
HICO-FSの精度は73.27%であり、5-way 5-shot タスクでは以前のSOTAの71.20%を上回った。
論文 参考訳(メタデータ) (2023-12-17T02:18:10Z) - Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World [57.832261258993526]
Bongard-OpenWorldは、マシンビジョンの実際の数ショット推論を評価するための新しいベンチマークである。
これは、現在の数発の推論アルゴリズムにすでに大きな課題を課している。
論文 参考訳(メタデータ) (2023-10-16T09:19:18Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Attribute-Guided Multi-Level Attention Network for Fine-Grained Fashion Retrieval [27.751399400911932]
本稿では,細粒度ファッション検索のための属性誘導型マルチレベルアテンションネットワーク(AG-MAN)を提案する。
具体的には、まず事前訓練された特徴抽出器を拡張し、マルチレベル画像埋め込みをキャプチャする。
そこで本研究では,同じ属性を持つ画像と異なる値を持つ画像とを同一のクラスに分類する分類手法を提案する。
論文 参考訳(メタデータ) (2022-12-27T05:28:38Z) - Cross-Modal Contrastive Learning for Robust Reasoning in VQA [76.1596796687494]
視覚的質問応答(VQA)におけるマルチモーダル推論は,近年急速に進展している。
ほとんどの推論モデルは、トレーニングデータから学んだショートカットに大きく依存しています。
本稿では,ショートカット推論の除去を目的とした,単純だが効果的なクロスモーダル・コントラスト学習戦略を提案する。
論文 参考訳(メタデータ) (2022-11-21T05:32:24Z) - CobNet: Cross Attention on Object and Background for Few-Shot
Segmentation [0.0]
Few-shotのセグメンテーションは、アノテーション付きのサンプルのみを使用して、これまで見つからなかったクラスのオブジェクトを含むイメージをセグメントすることを目的としている。
背景情報は、対象と周囲を区別するのにも有用である。
本稿では,クエリ画像から抽出した背景情報を利用したCobNetを提案する。
論文 参考訳(メタデータ) (2022-10-21T13:49:46Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z) - Learning Compositional Representation for Few-shot Visual Question
Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。
回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。
VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文 参考訳(メタデータ) (2021-02-21T10:16:24Z) - Overcoming Language Priors with Self-supervised Learning for Visual
Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。
この問題を解決するための自己監督学習フレームワークを紹介します。
我々の手法は最先端の手法を大きく上回ることができる。
論文 参考訳(メタデータ) (2020-12-17T12:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。