論文の概要: Cross-Image Context Matters for Bongard Problems
- arxiv url: http://arxiv.org/abs/2309.03468v1
- Date: Thu, 7 Sep 2023 03:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 14:31:34.764791
- Title: Cross-Image Context Matters for Bongard Problems
- Title(参考訳): ボナード問題におけるクロスイメージコンテキスト
- Authors: Nikhil Raghuraman, Adam W. Harley, Leonidas Guibas
- Abstract要約: ボナード問題(英: Bongard problem)とは、正負のイメージと負のイメージの集合から抽象的な「概念」を導出する必要があるIQテストの一種である。
現在の機械学習手法はボナード問題を解くのに苦労しており、これはIQテストの一種であり、肯定的かつ負的な「支持」イメージの集合から抽象的な「概念」を導出する必要がある。
- 参考スコア(独自算出の注目度): 8.987068295037627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current machine learning methods struggle to solve Bongard problems, which
are a type of IQ test that requires deriving an abstract "concept" from a set
of positive and negative "support" images, and then classifying whether or not
a new query image depicts the key concept. On Bongard-HOI, a benchmark for
natural-image Bongard problems, existing methods have only reached 66% accuracy
(where chance is 50%). Low accuracy is often attributed to neural nets' lack of
ability to find human-like symbolic rules. In this work, we point out that many
existing methods are forfeiting accuracy due to a much simpler problem: they do
not incorporate information contained in the support set as a whole, and rely
instead on information extracted from individual supports. This is a critical
issue, because unlike in few-shot learning tasks concerning object
classification, the "key concept" in a typical Bongard problem can only be
distinguished using multiple positives and multiple negatives. We explore a
variety of simple methods to take this cross-image context into account, and
demonstrate substantial gains over prior methods, leading to new
state-of-the-art performance on Bongard-LOGO (75.3%) and Bongard-HOI (72.45%)
and strong performance on the original Bongard problem set (60.84%).
- Abstract(参考訳): 現在の機械学習手法では、正負の"サポート"イメージから抽象的な"概念"を導出し、新しいクエリイメージが鍵となる概念を表現しているかどうかを分類する必要があるIQテストの一種であるボンガードの問題を解決するのに苦労している。
自然画像ボンガード問題のベンチマークであるbongard-hoiでは、既存の手法は66%の精度(確率50%)に達している。
低精度は、ニューラルネットワークが人間のような象徴的なルールを見つける能力の欠如に起因することが多い。
本研究では,既存の手法の多くは,サポートセット全体に含まれる情報を組み込んでおらず,個々のサポートから抽出した情報に依存するという,より単純な問題によって精度を低下させていることを指摘する。
これは、オブジェクト分類に関するわずかな学習タスクとは異なり、典型的なボンガード問題における「キー概念」は、複数の正と複数の負でしか区別できないため、重要な問題である。
このクロスイメージの文脈を考慮に入れるための様々な単純な方法を検討し、以前の方法よりも大幅な向上を示し、bongard-logo (75.3%) とbongard-hoi (72.45%) の新しい最先端パフォーマンスと、元のbongard問題集合 (60.84%) での強力なパフォーマンスをもたらす。
関連論文リスト
- Few-Shot Learning from Augmented Label-Uncertain Queries in Bongard-HOI [23.704284537118543]
本稿では,クエリ入力の多様性を高めるために,ラベル不確実なクエリ拡張手法を提案する。
提案手法は,Bongard-HOIベンチマークにおいて68.74%の精度でSOTA(State-of-the-art)性能を実現する。
HICO-FSの精度は73.27%であり、5-way 5-shot タスクでは以前のSOTAの71.20%を上回った。
論文 参考訳(メタデータ) (2023-12-17T02:18:10Z) - Improved Visual Grounding through Self-Consistent Explanations [58.51131933246332]
本稿では,大規模な言語モデルを用いて,既存のテキスト画像データセットをパラフレーズで拡張するための戦略を提案する。
SelfEQは、自己整合性を促進するパラフレーズの視覚的説明地図に関する弱教師付き戦略である。
論文 参考訳(メタデータ) (2023-12-07T18:59:22Z) - Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World [57.832261258993526]
Bongard-OpenWorldは、マシンビジョンの実際の数ショット推論を評価するための新しいベンチマークである。
これは、現在の数発の推論アルゴリズムにすでに大きな課題を課している。
論文 参考訳(メタデータ) (2023-10-16T09:19:18Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - Attribute-Guided Multi-Level Attention Network for Fine-Grained Fashion Retrieval [27.751399400911932]
本稿では,細粒度ファッション検索のための属性誘導型マルチレベルアテンションネットワーク(AG-MAN)を提案する。
具体的には、まず事前訓練された特徴抽出器を拡張し、マルチレベル画像埋め込みをキャプチャする。
そこで本研究では,同じ属性を持つ画像と異なる値を持つ画像とを同一のクラスに分類する分類手法を提案する。
論文 参考訳(メタデータ) (2022-12-27T05:28:38Z) - "John is 50 years old, can his son be 65?" Evaluating NLP Models'
Understanding of Feasibility [19.47954905054217]
この研究は、アクション(またはその効果)が実現可能かどうかを推論する、単純な常識能力に焦点を当てている。
GPT-3のような最先端モデルでさえ、実現可能性の問題に正しく答えることに苦慮していることを示す。
論文 参考訳(メタデータ) (2022-10-14T02:46:06Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z) - Overcoming Language Priors with Self-supervised Learning for Visual
Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。
この問題を解決するための自己監督学習フレームワークを紹介します。
我々の手法は最先端の手法を大きく上回ることができる。
論文 参考訳(メタデータ) (2020-12-17T12:30:12Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。