Fugu-MT 論文翻訳(概要): Cross-Image Context Matters for Bongard Problems

論文の概要: Cross-Image Context Matters for Bongard Problems

arxiv url: http://arxiv.org/abs/2309.03468v1
Date: Thu, 7 Sep 2023 03:33:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-08 14:31:34.764791
Title: Cross-Image Context Matters for Bongard Problems
Title（参考訳）: ボナード問題におけるクロスイメージコンテキスト
Authors: Nikhil Raghuraman, Adam W. Harley, Leonidas Guibas
Abstract要約: ボナード問題(英: Bongard problem)とは、正負のイメージと負のイメージの集合から抽象的な「概念」を導出する必要があるIQテストの一種である。現在の機械学習手法はボナード問題を解くのに苦労しており、これはIQテストの一種であり、肯定的かつ負的な「支持」イメージの集合から抽象的な「概念」を導出する必要がある。
参考スコア（独自算出の注目度）: 8.987068295037627
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current machine learning methods struggle to solve Bongard problems, which are a type of IQ test that requires deriving an abstract "concept" from a set of positive and negative "support" images, and then classifying whether or not a new query image depicts the key concept. On Bongard-HOI, a benchmark for natural-image Bongard problems, existing methods have only reached 66% accuracy (where chance is 50%). Low accuracy is often attributed to neural nets' lack of ability to find human-like symbolic rules. In this work, we point out that many existing methods are forfeiting accuracy due to a much simpler problem: they do not incorporate information contained in the support set as a whole, and rely instead on information extracted from individual supports. This is a critical issue, because unlike in few-shot learning tasks concerning object classification, the "key concept" in a typical Bongard problem can only be distinguished using multiple positives and multiple negatives. We explore a variety of simple methods to take this cross-image context into account, and demonstrate substantial gains over prior methods, leading to new state-of-the-art performance on Bongard-LOGO (75.3%) and Bongard-HOI (72.45%) and strong performance on the original Bongard problem set (60.84%).
Abstract（参考訳）: 現在の機械学習手法では、正負の"サポート"イメージから抽象的な"概念"を導出し、新しいクエリイメージが鍵となる概念を表現しているかどうかを分類する必要があるIQテストの一種であるボンガードの問題を解決するのに苦労している。自然画像ボンガード問題のベンチマークであるbongard-hoiでは、既存の手法は66%の精度(確率50%)に達している。低精度は、ニューラルネットワークが人間のような象徴的なルールを見つける能力の欠如に起因することが多い。本研究では,既存の手法の多くは,サポートセット全体に含まれる情報を組み込んでおらず,個々のサポートから抽出した情報に依存するという,より単純な問題によって精度を低下させていることを指摘する。これは、オブジェクト分類に関するわずかな学習タスクとは異なり、典型的なボンガード問題における「キー概念」は、複数の正と複数の負でしか区別できないため、重要な問題である。このクロスイメージの文脈を考慮に入れるための様々な単純な方法を検討し、以前の方法よりも大幅な向上を示し、bongard-logo (75.3%) とbongard-hoi (72.45%) の新しい最先端パフォーマンスと、元のbongard問題集合 (60.84%) での強力なパフォーマンスをもたらす。

関連論文リスト

FS-IQA: Certified Feature Smoothing for Robust Image Quality Assessment [4.135467749401761]
本稿では,画像品質評価(IQA)モデルに対する新しい認証防御手法を提案する。入力空間ではなく特徴空間に雑音を印加したランダムな平滑化に基づいている。その結果,主観的品質スコアとの相関性は最大30.9%向上した。
論文参考訳（メタデータ） (2025-08-07T15:47:55Z)
Few-Shot Learning from Augmented Label-Uncertain Queries in Bongard-HOI [23.704284537118543]
本稿では,クエリ入力の多様性を高めるために,ラベル不確実なクエリ拡張手法を提案する。提案手法は,Bongard-HOIベンチマークにおいて68.74%の精度でSOTA(State-of-the-art)性能を実現する。 HICO-FSの精度は73.27%であり、5-way 5-shot タスクでは以前のSOTAの71.20%を上回った。
論文参考訳（メタデータ） (2023-12-17T02:18:10Z)
Improved Visual Grounding through Self-Consistent Explanations [58.51131933246332]
本稿では,大規模な言語モデルを用いて,既存のテキスト画像データセットをパラフレーズで拡張するための戦略を提案する。 SelfEQは、自己整合性を促進するパラフレーズの視覚的説明地図に関する弱教師付き戦略である。
論文参考訳（メタデータ） (2023-12-07T18:59:22Z)
Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World [57.832261258993526]
Bongard-OpenWorldは、マシンビジョンの実際の数ショット推論を評価するための新しいベンチマークである。これは、現在の数発の推論アルゴリズムにすでに大きな課題を課している。
論文参考訳（メタデータ） (2023-10-16T09:19:18Z)
Sample Less, Learn More: Efficient Action Recognition via Frame Feature Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文参考訳（メタデータ） (2023-07-27T13:52:42Z)
PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。 3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。 PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文参考訳（メタデータ） (2023-04-03T21:14:59Z)
Attribute-Guided Multi-Level Attention Network for Fine-Grained Fashion Retrieval [27.751399400911932]
本稿では,細粒度ファッション検索のための属性誘導型マルチレベルアテンションネットワーク(AG-MAN)を提案する。具体的には、まず事前訓練された特徴抽出器を拡張し、マルチレベル画像埋め込みをキャプチャする。そこで本研究では,同じ属性を持つ画像と異なる値を持つ画像とを同一のクラスに分類する分類手法を提案する。
論文参考訳（メタデータ） (2022-12-27T05:28:38Z)
Cross-Modal Contrastive Learning for Robust Reasoning in VQA [76.1596796687494]
視覚的質問応答(VQA)におけるマルチモーダル推論は,近年急速に進展している。ほとんどの推論モデルは、トレーニングデータから学んだショートカットに大きく依存しています。本稿では,ショートカット推論の除去を目的とした,単純だが効果的なクロスモーダル・コントラスト学習戦略を提案する。
論文参考訳（メタデータ） (2022-11-21T05:32:24Z)
CobNet: Cross Attention on Object and Background for Few-Shot Segmentation [0.0]
Few-shotのセグメンテーションは、アノテーション付きのサンプルのみを使用して、これまで見つからなかったクラスのオブジェクトを含むイメージをセグメントすることを目的としている。背景情報は、対象と周囲を区別するのにも有用である。本稿では,クエリ画像から抽出した背景情報を利用したCobNetを提案する。
論文参考訳（メタデータ） (2022-10-21T13:49:46Z)
"John is 50 years old, can his son be 65?" Evaluating NLP Models' Understanding of Feasibility [19.47954905054217]
この研究は、アクション(またはその効果)が実現可能かどうかを推論する、単純な常識能力に焦点を当てている。 GPT-3のような最先端モデルでさえ、実現可能性の問題に正しく答えることに苦慮していることを示す。
論文参考訳（メタデータ） (2022-10-14T02:46:06Z)
Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。 Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文参考訳（メタデータ） (2022-05-27T07:36:29Z)
Learning Compositional Representation for Few-shot Visual Question Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。 VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文参考訳（メタデータ） (2021-02-21T10:16:24Z)
Overcoming Language Priors with Self-supervised Learning for Visual Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。この問題を解決するための自己監督学習フレームワークを紹介します。我々の手法は最先端の手法を大きく上回ることができる。
論文参考訳（メタデータ） (2020-12-17T12:30:12Z)
Logic-Guided Data Augmentation and Regularization for Consistent Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文参考訳（メタデータ） (2020-04-21T17:03:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。