論文の概要: Cross-Image Context Matters for Bongard Problems
- arxiv url: http://arxiv.org/abs/2309.03468v1
- Date: Thu, 7 Sep 2023 03:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 14:31:34.764791
- Title: Cross-Image Context Matters for Bongard Problems
- Title(参考訳): ボナード問題におけるクロスイメージコンテキスト
- Authors: Nikhil Raghuraman, Adam W. Harley, Leonidas Guibas
- Abstract要約: ボナード問題(英: Bongard problem)とは、正負のイメージと負のイメージの集合から抽象的な「概念」を導出する必要があるIQテストの一種である。
現在の機械学習手法はボナード問題を解くのに苦労しており、これはIQテストの一種であり、肯定的かつ負的な「支持」イメージの集合から抽象的な「概念」を導出する必要がある。
- 参考スコア(独自算出の注目度): 8.987068295037627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current machine learning methods struggle to solve Bongard problems, which
are a type of IQ test that requires deriving an abstract "concept" from a set
of positive and negative "support" images, and then classifying whether or not
a new query image depicts the key concept. On Bongard-HOI, a benchmark for
natural-image Bongard problems, existing methods have only reached 66% accuracy
(where chance is 50%). Low accuracy is often attributed to neural nets' lack of
ability to find human-like symbolic rules. In this work, we point out that many
existing methods are forfeiting accuracy due to a much simpler problem: they do
not incorporate information contained in the support set as a whole, and rely
instead on information extracted from individual supports. This is a critical
issue, because unlike in few-shot learning tasks concerning object
classification, the "key concept" in a typical Bongard problem can only be
distinguished using multiple positives and multiple negatives. We explore a
variety of simple methods to take this cross-image context into account, and
demonstrate substantial gains over prior methods, leading to new
state-of-the-art performance on Bongard-LOGO (75.3%) and Bongard-HOI (72.45%)
and strong performance on the original Bongard problem set (60.84%).
- Abstract(参考訳): 現在の機械学習手法では、正負の"サポート"イメージから抽象的な"概念"を導出し、新しいクエリイメージが鍵となる概念を表現しているかどうかを分類する必要があるIQテストの一種であるボンガードの問題を解決するのに苦労している。
自然画像ボンガード問題のベンチマークであるbongard-hoiでは、既存の手法は66%の精度(確率50%)に達している。
低精度は、ニューラルネットワークが人間のような象徴的なルールを見つける能力の欠如に起因することが多い。
本研究では,既存の手法の多くは,サポートセット全体に含まれる情報を組み込んでおらず,個々のサポートから抽出した情報に依存するという,より単純な問題によって精度を低下させていることを指摘する。
これは、オブジェクト分類に関するわずかな学習タスクとは異なり、典型的なボンガード問題における「キー概念」は、複数の正と複数の負でしか区別できないため、重要な問題である。
このクロスイメージの文脈を考慮に入れるための様々な単純な方法を検討し、以前の方法よりも大幅な向上を示し、bongard-logo (75.3%) とbongard-hoi (72.45%) の新しい最先端パフォーマンスと、元のbongard問題集合 (60.84%) での強力なパフォーマンスをもたらす。
関連論文リスト
- Few-Shot Learning from Augmented Label-Uncertain Queries in Bongard-HOI [23.704284537118543]
本稿では,クエリ入力の多様性を高めるために,ラベル不確実なクエリ拡張手法を提案する。
提案手法は,Bongard-HOIベンチマークにおいて68.74%の精度でSOTA(State-of-the-art)性能を実現する。
HICO-FSの精度は73.27%であり、5-way 5-shot タスクでは以前のSOTAの71.20%を上回った。
論文 参考訳(メタデータ) (2023-12-17T02:18:10Z) - Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World [57.832261258993526]
Bongard-OpenWorldは、マシンビジョンの実際の数ショット推論を評価するための新しいベンチマークである。
これは、現在の数発の推論アルゴリズムにすでに大きな課題を課している。
論文 参考訳(メタデータ) (2023-10-16T09:19:18Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - Attribute-Guided Multi-Level Attention Network for Fine-Grained Fashion Retrieval [27.751399400911932]
本稿では,細粒度ファッション検索のための属性誘導型マルチレベルアテンションネットワーク(AG-MAN)を提案する。
具体的には、まず事前訓練された特徴抽出器を拡張し、マルチレベル画像埋め込みをキャプチャする。
そこで本研究では,同じ属性を持つ画像と異なる値を持つ画像とを同一のクラスに分類する分類手法を提案する。
論文 参考訳(メタデータ) (2022-12-27T05:28:38Z) - Cross-Modal Contrastive Learning for Robust Reasoning in VQA [76.1596796687494]
視覚的質問応答(VQA)におけるマルチモーダル推論は,近年急速に進展している。
ほとんどの推論モデルは、トレーニングデータから学んだショートカットに大きく依存しています。
本稿では,ショートカット推論の除去を目的とした,単純だが効果的なクロスモーダル・コントラスト学習戦略を提案する。
論文 参考訳(メタデータ) (2022-11-21T05:32:24Z) - CobNet: Cross Attention on Object and Background for Few-Shot
Segmentation [0.0]
Few-shotのセグメンテーションは、アノテーション付きのサンプルのみを使用して、これまで見つからなかったクラスのオブジェクトを含むイメージをセグメントすることを目的としている。
背景情報は、対象と周囲を区別するのにも有用である。
本稿では,クエリ画像から抽出した背景情報を利用したCobNetを提案する。
論文 参考訳(メタデータ) (2022-10-21T13:49:46Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z) - Learning Compositional Representation for Few-shot Visual Question
Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。
回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。
VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文 参考訳(メタデータ) (2021-02-21T10:16:24Z) - Overcoming Language Priors with Self-supervised Learning for Visual
Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。
この問題を解決するための自己監督学習フレームワークを紹介します。
我々の手法は最先端の手法を大きく上回ることができる。
論文 参考訳(メタデータ) (2020-12-17T12:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。