論文の概要: Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in
the Real World
- arxiv url: http://arxiv.org/abs/2310.10207v4
- Date: Tue, 12 Mar 2024 10:57:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:53:02.699066
- Title: Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in
the Real World
- Title(参考訳): Bongard-OpenWorld: 現実の世界における自由な視覚概念のためのFew-Shot Reasoning
- Authors: Rujie Wu, Xiaojian Ma, Zhenliang Zhang, Wei Wang, Qing Li, Song-Chun
Zhu, Yizhou Wang
- Abstract要約: Bongard-OpenWorldは、マシンビジョンの実際の数ショット推論を評価するための新しいベンチマークである。
これは、現在の数発の推論アルゴリズムにすでに大きな課題を課している。
- 参考スコア(独自算出の注目度): 60.73230167638598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Bongard-OpenWorld, a new benchmark for evaluating real-world
few-shot reasoning for machine vision. It originates from the classical Bongard
Problems (BPs): Given two sets of images (positive and negative), the model
needs to identify the set that query images belong to by inducing the visual
concepts, which is exclusively depicted by images from the positive set. Our
benchmark inherits the few-shot concept induction of the original BPs while
adding the two novel layers of challenge: 1) open-world free-form concepts, as
the visual concepts in Bongard-OpenWorld are unique compositions of terms from
an open vocabulary, ranging from object categories to abstract visual
attributes and commonsense factual knowledge; 2) real-world images, as opposed
to the synthetic diagrams used by many counterparts. In our exploration,
Bongard-OpenWorld already imposes a significant challenge to current few-shot
reasoning algorithms. We further investigate to which extent the recently
introduced Large Language Models (LLMs) and Vision-Language Models (VLMs) can
solve our task, by directly probing VLMs, and combining VLMs and LLMs in an
interactive reasoning scheme. We even conceived a neuro-symbolic reasoning
approach that reconciles LLMs & VLMs with logical reasoning to emulate the
human problem-solving process for Bongard Problems. However, none of these
approaches manage to close the human-machine gap, as the best learner achieves
64% accuracy while human participants easily reach 91%. We hope
Bongard-OpenWorld can help us better understand the limitations of current
visual intelligence and facilitate future research on visual agents with
stronger few-shot visual reasoning capabilities.
- Abstract(参考訳): Bongard-OpenWorldは、マシンビジョンのための実世界の数ショット推論を評価するための新しいベンチマークである。
古典的なボナード問題(BP)に由来する: 2つのイメージセット(正と負の)が与えられたモデルでは、クエリイメージが属する集合を正の集合からのみ描写される視覚概念を誘導することによって識別する必要がある。
我々のベンチマークは、最初のBPのいくつかの概念を継承し、新しい2つの課題を追加している。
1)bongard-openworldの視覚概念は,オブジェクトのカテゴリから抽象的な視覚属性,常識的な事実知識まで,オープンボキャブラリから用語のユニークな構成である。
2) 実世界の画像は,多くの対数で使用される合成図と対照的である。
私たちの調査では、bongard-openworldはすでに、現在の少数ショット推論アルゴリズムに重大な課題を課しています。
さらに,最近導入されたLarge Language Models (LLMs) とVision-Language Models (VLMs) が,VLMを直接探索し,VLMとLLMを対話型推論方式で組み合わせることで,その課題をどの程度解決できるかについても検討する。
ボナード問題に対する人間の問題解決過程をエミュレートするために,LLMとVLMを論理的推論で再現する神経象徴的推論手法も考案した。
しかし、最良の学習者は64%の精度を達成し、人間の参加者は91%に到達し易いため、これらのアプローチはいずれも人間と機械のギャップを埋めるには至らなかった。
bongard-openworldは、現在の視覚知能の限界をより深く理解し、より強力な少数ショットの視覚推論能力を持つ視覚エージェントに関する将来の研究を促進するのに役立つことを願っている。
関連論文リスト
- FSViewFusion: Few-Shots View Generation of Novel Objects [75.81872204650807]
本研究では,3次元前処理を伴わないビュー合成のための事前訓練された安定拡散モデルを提案する。
具体的には,Dreamboothという画像モデルを用いたパーソナライズされたテキストに基づく手法を提案する。
ビューの概念は、ビューが学習された元のオブジェクトの識別に関係なく、アンタングル化され、新しいオブジェクトに転送可能であることを確認します。
論文 参考訳(メタデータ) (2024-03-11T02:59:30Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [53.80712303306577]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Discovering Novel Actions in an Open World with Object-Grounded Visual
Commonsense Reasoning [5.28539620288341]
本稿では,大規模知識ベースに蓄積された記号的知識を用いて,自己中心型ビデオのアクティビティを推論する,ALGOと呼ばれるニューロシンボリック・フレームワークを提案する。
ALGOをゼロショット設定に拡張し,マルチモーダル基礎モデルとの競合性能を示す。
論文 参考訳(メタデータ) (2023-05-26T03:21:30Z) - ReSee: Responding through Seeing Fine-grained Visual Knowledge in
Open-domain Dialogue [34.223466503256766]
視覚的知識をよりきめ細かな粒度に分割することで多モーダル対話を構築するための新しいパラダイムを提供する。
拡張視覚情報の精度と多様性を高めるため、インターネットや大規模な画像データセットからそれらを検索する。
テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。
論文 参考訳(メタデータ) (2023-05-23T02:08:56Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。