論文の概要: Support-Set Context Matters for Bongard Problems
- arxiv url: http://arxiv.org/abs/2309.03468v2
- Date: Sun, 01 Dec 2024 00:09:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 16:56:53.042344
- Title: Support-Set Context Matters for Bongard Problems
- Title(参考訳): ボナード問題に対するサポートセットコンテキスト
- Authors: Nikhil Raghuraman, Adam W. Harley, Leonidas Guibas,
- Abstract要約: ボナード問題(英: Bongard problem)とは、正負のイメージと負のイメージの集合から抽象的な「概念」を導出する必要があるIQテストの一種である。
現在の機械学習手法は、IQテストの一種であるボンガード問題を解くのに苦労している。
従来の作業よりも大幅に向上し,Bongard-LOGOとBongard-HOIの精度が向上した。
- 参考スコア(独自算出の注目度): 7.996325307599679
- License:
- Abstract: Current machine learning methods struggle to solve Bongard problems, which are a type of IQ test that requires deriving an abstract "concept" from a set of positive and negative "support" images, and then classifying whether or not a new query image depicts the key concept. On Bongard-HOI, a benchmark for natural-image Bongard problems, most existing methods have reached at best 69% accuracy (where chance is 50%). Low accuracy is often attributed to neural nets' lack of ability to find human-like symbolic rules. In this work, we point out that many existing methods are forfeiting accuracy due to a much simpler problem: they do not adapt image features given information contained in the support set as a whole, and rely instead on information extracted from individual supports. This is a critical issue, because the "key concept" in a typical Bongard problem can often only be distinguished using multiple positives and multiple negatives. We explore simple methods to incorporate this context and show substantial gains over prior works, leading to new state-of-the-art accuracy on Bongard-LOGO (75.3%) and Bongard-HOI (76.4%) compared to methods with equivalent vision backbone architectures and strong performance on the original Bongard problem set (60.8%).
- Abstract(参考訳): 現在の機械学習手法では、正負の"サポート"イメージから抽象的な"概念"を導出し、新しいクエリイメージが鍵となる概念を表現しているかどうかを分類する必要があるIQテストの一種であるボンガードの問題を解決するのに苦労している。
自然像のボナード問題のベンチマークであるBongard-HOIでは、ほとんどの既存の手法が69%の精度(確率50%)に達している。
低い精度は、ニューラルネットが人間のようなシンボリックルールを見つける能力の欠如に起因していることが多い。
本研究は,既存の多くの手法が,サポートセットに含まれる所定の情報に適応せず,個々のサポートから抽出した情報に依存するという,より単純な問題により精度を低下させていることを指摘する。
典型的なボンガード問題における「鍵概念」は、しばしば複数の正と複数の負で区別される。
我々は、この文脈を取り入れた単純な手法を探究し、ボナード-LOGO (75.3%) とボンガード-HOI (76.4%) の最先端の精度を、同等の視覚バックボーンアーキテクチャを持つ手法と、オリジナルのボナード問題セット (60.8%) の強い性能と比較した。
関連論文リスト
- Few-Shot Learning from Augmented Label-Uncertain Queries in Bongard-HOI [23.704284537118543]
本稿では,クエリ入力の多様性を高めるために,ラベル不確実なクエリ拡張手法を提案する。
提案手法は,Bongard-HOIベンチマークにおいて68.74%の精度でSOTA(State-of-the-art)性能を実現する。
HICO-FSの精度は73.27%であり、5-way 5-shot タスクでは以前のSOTAの71.20%を上回った。
論文 参考訳(メタデータ) (2023-12-17T02:18:10Z) - Improved Visual Grounding through Self-Consistent Explanations [58.51131933246332]
本稿では,大規模な言語モデルを用いて,既存のテキスト画像データセットをパラフレーズで拡張するための戦略を提案する。
SelfEQは、自己整合性を促進するパラフレーズの視覚的説明地図に関する弱教師付き戦略である。
論文 参考訳(メタデータ) (2023-12-07T18:59:22Z) - Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World [57.832261258993526]
Bongard-OpenWorldは、マシンビジョンの実際の数ショット推論を評価するための新しいベンチマークである。
これは、現在の数発の推論アルゴリズムにすでに大きな課題を課している。
論文 参考訳(メタデータ) (2023-10-16T09:19:18Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - Attribute-Guided Multi-Level Attention Network for Fine-Grained Fashion Retrieval [27.751399400911932]
本稿では,細粒度ファッション検索のための属性誘導型マルチレベルアテンションネットワーク(AG-MAN)を提案する。
具体的には、まず事前訓練された特徴抽出器を拡張し、マルチレベル画像埋め込みをキャプチャする。
そこで本研究では,同じ属性を持つ画像と異なる値を持つ画像とを同一のクラスに分類する分類手法を提案する。
論文 参考訳(メタデータ) (2022-12-27T05:28:38Z) - "John is 50 years old, can his son be 65?" Evaluating NLP Models'
Understanding of Feasibility [19.47954905054217]
この研究は、アクション(またはその効果)が実現可能かどうかを推論する、単純な常識能力に焦点を当てている。
GPT-3のような最先端モデルでさえ、実現可能性の問題に正しく答えることに苦慮していることを示す。
論文 参考訳(メタデータ) (2022-10-14T02:46:06Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z) - Overcoming Language Priors with Self-supervised Learning for Visual
Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。
この問題を解決するための自己監督学習フレームワークを紹介します。
我々の手法は最先端の手法を大きく上回ることができる。
論文 参考訳(メタデータ) (2020-12-17T12:30:12Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。