論文の概要: Bongards at the Boundary of Perception and Reasoning: Programs or Language?
- arxiv url: http://arxiv.org/abs/2602.03038v1
- Date: Tue, 03 Feb 2026 03:04:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.211907
- Title: Bongards at the Boundary of Perception and Reasoning: Programs or Language?
- Title(参考訳): 認識と推論の境界における境界: プログラムか言語か?
- Authors: Cassidy Langenfeld, Claas Beger, Gloria Geng, Wasu Top Piriyakulkij, Keya Hu, Yewen Pu, Kevin Ellis,
- Abstract要約: 人間は、視覚的推論能力を根本的に新しい状況に展開する能力を持っている。
ボナード問題を解くためのニューロシンボリックアプローチを提案する。
本手法は, 基本真理則に基づくボナード問題画像の分類と, 問題のスクラッチからの解法について評価する。
- 参考スコア(独自算出の注目度): 18.717928534727864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have made great strides in everyday visual tasks, such as captioning a natural image, or answering commonsense questions about such images. But humans possess the puzzling ability to deploy their visual reasoning abilities in radically new situations, a skill rigorously tested by the classic set of visual reasoning challenges known as the Bongard problems. We present a neurosymbolic approach to solving these problems: given a hypothesized solution rule for a Bongard problem, we leverage LLMs to generate parameterized programmatic representations for the rule and perform parameter fitting using Bayesian optimization. We evaluate our method on classifying Bongard problem images given the ground truth rule, as well as on solving the problems from scratch.
- Abstract(参考訳): VLM(Vision-Language Models)は、自然画像のキャプションや、そのような画像に関する常識的な質問への回答など、日常的な視覚的タスクにおいて大きな進歩を遂げている。
しかし人間の視覚的推論能力は、ボナード問題として知られる古典的な視覚的推論の課題によって厳格に検証される。
ボナード問題に対する仮説的な解法則を与えられた場合、LLMを利用して規則のパラメータ化されたプログラム表現を生成し、ベイズ最適化を用いてパラメータフィッティングを行う。
本手法は, 基本真理則に基づくボナード問題画像の分類と, 問題のスクラッチからの解法について評価する。
関連論文リスト
- MentisOculi: Revealing the Limits of Reasoning with Mental Imagery [63.285794947638614]
視覚的解決が可能な多段階推論問題の組である MentisOculi を開発した。
遅延トークンから明示的な生成画像まで,視覚的戦略を評価すると,一般的にはパフォーマンス向上に失敗する。
以上の結果から,視覚的思考がモデル推論の恩恵を受けていないことが示唆された。
論文 参考訳(メタデータ) (2026-02-02T18:49:06Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - A Knapsack by Any Other Name: Presentation impacts LLM performance on NP-hard problems [64.05451567422342]
自然言語で表現されたNPハード問題の集合であるEveryday Hard Optimization Problems (EHOP) のデータセットを紹介する。
EHOPには、コンピュータサイエンスの教科書(例えば、グラフカラー化)で見られる問題の定式化が含まれている。
複数のプロンプト戦略にまたがる最先端のLCMは、実生活や逆転よりも正確な教科書問題を解くことができる。
論文 参考訳(メタデータ) (2025-02-19T14:39:59Z) - Socratic Questioning: Learn to Self-guide Multimodal Reasoning in the Wild [35.91285472401222]
軽量マルチモーダル大言語モデル(MLLM)に適した革新的学習・推論フレームワークを考案する。
我々の自己組織化アプローチはMLLMを組織的にガイドし、ターゲット問題に関連する視覚的手がかりに集中させ、幻覚を減らし、きめ細かい画像の詳細を記述できるモデルの能力を高める。
各種ベンチマーク実験により,SQの自己探索,ゼロショット視覚推論,幻覚緩和における顕著な能力を示す。
論文 参考訳(メタデータ) (2025-01-06T12:16:56Z) - Loose LIPS Sink Ships: Asking Questions in Battleship with Language-Informed Program Sampling [80.64715784334936]
ボードゲーム「バトルシップ」に基づく古典的根拠付き質問応答課題におけるトレードオフについて検討する。
我々のモデルは,大規模言語モデル(LLM)を用いて自然言語の質問を生成し,それらを記号型プログラムに変換し,期待される情報取得を評価する。
驚くほど控えめなリソース予算で、このシンプルなモンテカルロ最適化戦略は、人間のパフォーマンスを反映する有意義な質問をもたらす。
論文 参考訳(メタデータ) (2024-02-29T18:58:15Z) - Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World [57.832261258993526]
Bongard-OpenWorldは、マシンビジョンの実際の数ショット推論を評価するための新しいベンチマークである。
これは、現在の数発の推論アルゴリズムにすでに大きな課題を課している。
論文 参考訳(メタデータ) (2023-10-16T09:19:18Z) - Support-Set Context Matters for Bongard Problems [7.996325307599679]
ボナード問題(英: Bongard problem)とは、正負のイメージと負のイメージの集合から抽象的な「概念」を導出する必要があるIQテストの一種である。
現在の機械学習手法は、IQテストの一種であるボンガード問題を解くのに苦労している。
従来の作業よりも大幅に向上し,Bongard-LOGOとBongard-HOIの精度が向上した。
論文 参考訳(メタデータ) (2023-09-07T03:33:49Z) - Using Program Synthesis and Inductive Logic Programming to solve Bongard
Problems [20.864990877667296]
本稿では,Dreamcoderによって構築されたプログラムが,ボンガード問題の解法として類似推論に利用できるかどうかを予備検討する。
位置情報を用いて状態を自動でデコレートし、結果のシーケンスをPrologの論理的事実にエンコードする。
人工的に生成した「上/下」や「時計回り/下」といった概念に対するボンガード問題の実験は、我々のエンドツーエンドシステムがそのような問題を解決することを実証している。
論文 参考訳(メタデータ) (2021-10-19T13:13:06Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。