論文の概要: Bongards at the Boundary of Perception and Reasoning: Programs or Language?
- arxiv url: http://arxiv.org/abs/2602.03038v1
- Date: Tue, 03 Feb 2026 03:04:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.211907
- Title: Bongards at the Boundary of Perception and Reasoning: Programs or Language?
- Title(参考訳): 認識と推論の境界における境界: プログラムか言語か?
- Authors: Cassidy Langenfeld, Claas Beger, Gloria Geng, Wasu Top Piriyakulkij, Keya Hu, Yewen Pu, Kevin Ellis,
- Abstract要約: 人間は、視覚的推論能力を根本的に新しい状況に展開する能力を持っている。
ボナード問題を解くためのニューロシンボリックアプローチを提案する。
本手法は, 基本真理則に基づくボナード問題画像の分類と, 問題のスクラッチからの解法について評価する。
- 参考スコア(独自算出の注目度): 18.717928534727864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have made great strides in everyday visual tasks, such as captioning a natural image, or answering commonsense questions about such images. But humans possess the puzzling ability to deploy their visual reasoning abilities in radically new situations, a skill rigorously tested by the classic set of visual reasoning challenges known as the Bongard problems. We present a neurosymbolic approach to solving these problems: given a hypothesized solution rule for a Bongard problem, we leverage LLMs to generate parameterized programmatic representations for the rule and perform parameter fitting using Bayesian optimization. We evaluate our method on classifying Bongard problem images given the ground truth rule, as well as on solving the problems from scratch.
- Abstract(参考訳): VLM(Vision-Language Models)は、自然画像のキャプションや、そのような画像に関する常識的な質問への回答など、日常的な視覚的タスクにおいて大きな進歩を遂げている。
しかし人間の視覚的推論能力は、ボナード問題として知られる古典的な視覚的推論の課題によって厳格に検証される。
ボナード問題に対する仮説的な解法則を与えられた場合、LLMを利用して規則のパラメータ化されたプログラム表現を生成し、ベイズ最適化を用いてパラメータフィッティングを行う。
本手法は, 基本真理則に基づくボナード問題画像の分類と, 問題のスクラッチからの解法について評価する。
関連論文リスト
- Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World [57.832261258993526]
Bongard-OpenWorldは、マシンビジョンの実際の数ショット推論を評価するための新しいベンチマークである。
これは、現在の数発の推論アルゴリズムにすでに大きな課題を課している。
論文 参考訳(メタデータ) (2023-10-16T09:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。