論文の概要: Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems
- arxiv url: http://arxiv.org/abs/2508.12026v1
- Date: Sat, 16 Aug 2025 12:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.518737
- Title: Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems
- Title(参考訳): Bongard-RWR+:Bongard問題におけるファイングラインド概念の実世界表現
- Authors: Szymon Pawlonka, Mikołaj Małkiński, Jacek Mańdziuk,
- Abstract要約: ボンガード問題(BP)は抽象的視覚推論(AVR)のための挑戦的なテストベッドを提供する
Bongard-RWR+は5,400ドルのインスタンスからなるデータセットで、実世界の画像を用いてBPの抽象概念を表現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bongard Problems (BPs) provide a challenging testbed for abstract visual reasoning (AVR), requiring models to identify visual concepts fromjust a few examples and describe them in natural language. Early BP benchmarks featured synthetic black-and-white drawings, which might not fully capture the complexity of real-world scenes. Subsequent BP datasets employed real-world images, albeit the represented concepts are identifiable from high-level image features, reducing the task complexity. Differently, the recently released Bongard-RWR dataset aimed at representing abstract concepts formulated in the original BPs using fine-grained real-world images. Its manual construction, however, limited the dataset size to just $60$ instances, constraining evaluation robustness. In this work, we introduce Bongard-RWR+, a BP dataset composed of $5\,400$ instances that represent original BP abstract concepts using real-world-like images generated via a vision language model (VLM) pipeline. Building on Bongard-RWR, we employ Pixtral-12B to describe manually curated images and generate new descriptions aligned with the underlying concepts, use Flux.1-dev to synthesize images from these descriptions, and manually verify that the generated images faithfully reflect the intended concepts. We evaluate state-of-the-art VLMs across diverse BP formulations, including binary and multiclass classification, as well as textual answer generation. Our findings reveal that while VLMs can recognize coarse-grained visual concepts, they consistently struggle with discerning fine-grained concepts, highlighting limitations in their reasoning capabilities.
- Abstract(参考訳): ボンガード問題(BP)は抽象的な視覚的推論(AVR)のための挑戦的なテストベッドを提供する。
初期のBPベンチマークでは、合成された白黒の描画が特徴で、現実世界のシーンの複雑さを完全には捉えられないかもしれない。
その後のBPデータセットは実世界のイメージを使用していたが、表現された概念は高レベルな画像の特徴から識別可能であり、タスクの複雑さが軽減される。
異なることに、先日リリースされたBongard-RWRデータセットは、粒度の細かい実世界のイメージを使用して、オリジナルのBPで定式化された抽象概念を表現することを目的としている。
しかし、手作業による構成はデータセットのサイズを60ドルのインスタンスに制限し、評価の堅牢性を制限した。
本稿では,視覚言語モデル(VLM)パイプラインを用いて生成した実世界のようなイメージを用いて,BP抽象概念を表す5,400ドルのインスタンスからなるBPデータセットであるBongard-RWR+を紹介する。
Bongard-RWR 上に構築した Pixtral-12B を用いて、手動でキュレートされた画像を記述し、基礎となる概念と整合した新しい記述を生成し、 Flux.1-dev を用いてこれらの記述から画像を合成し、生成した画像が意図した概念を忠実に反映していることを確認する。
両クラス分類,多クラス分類,テキスト応答生成など,BP の様々な定式化における最先端 VLM の評価を行った。
以上の結果から,VLMは粗粒度の概念を認識できるが,細粒度概念の識別に常に苦労し,推論能力の限界を浮き彫りにしていることがわかった。
関連論文リスト
- Referring Layer Decomposition [25.128453386102887]
単一のRGB画像から完全なRGBA層を予測するRLD(Referring Layer Decomposition)タスクを導入する。
コアとなるRefLadeは、スケーラブルなデータエンジンによって生成される1.11Mイメージ層プロンプトトリプレットからなる大規模なデータセットです。
本稿では,プロンプト条件付き層分解のためのシンプルなベースラインRefLayerを提案し,高い視覚的忠実度とセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2026-02-22T22:05:17Z) - Perceive, Understand and Restore: Real-World Image Super-Resolution with Autoregressive Multimodal Generative Models [33.76031793753807]
我々は、自己回帰型マルチモーダルモデルLumina-mGPTを堅牢なReal-ISRモデル、すなわちPUREに適応する。
PUREは入力された低画質の画像を認識して理解し、高品質の画像を復元する。
実験により、PUREはリアルな細部を生成しながら、画像の内容を保存していることが示された。
論文 参考訳(メタデータ) (2025-03-14T04:33:59Z) - Reasoning Limitations of Multimodal Large Language Models. A Case Study of Bongard Problems [0.0]
ボナード問題(BP)は、視覚的推論において重要な課題である。
マルチモーダル大言語モデル(MLLM)がBPを解くことができるかどうかを検討する。
実世界の画像を用いたBPの合成概念を表すデータセットであるBongard-RWRを紹介する。
論文 参考訳(メタデータ) (2024-11-02T08:06:30Z) - Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World [57.832261258993526]
Bongard-OpenWorldは、マシンビジョンの実際の数ショット推論を評価するための新しいベンチマークである。
これは、現在の数発の推論アルゴリズムにすでに大きな課題を課している。
論文 参考訳(メタデータ) (2023-10-16T09:19:18Z) - Towards Real-World Burst Image Super-Resolution: Benchmark and Method [93.73429028287038]
本稿では,複数のフレームから画像の詳細を忠実に再構成する大規模リアルタイムバースト超解像データセットであるRealBSRを確立する。
また,FBAnet(Federated Burst Affinity Network)を導入し,実世界の画像劣化下での画像間の非自明な画素幅の変位について検討する。
論文 参考訳(メタデータ) (2023-09-09T14:11:37Z) - Does Visual Pretraining Help End-to-End Reasoning? [81.4707017038019]
汎用ニューラルネットワークを用いて視覚的推論のエンドツーエンド学習を実現することができるかを検討する。
本稿では,ビデオフレームを小さなトークン集合に"圧縮"する,シンプルで汎用的な自己教師型フレームワークを提案する。
終末の視覚的推論のための構成的一般化を実現するためには,事前学習が不可欠である。
論文 参考訳(メタデータ) (2023-07-17T14:08:38Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - Palette: Image-to-Image Diffusion Models [50.268441533631176]
我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。
4つの困難な画像から画像への変換タスクにおいて、Paletteは強力なGANと回帰ベースラインを上回っている。
本稿では、FID、インセプションスコア、事前訓練されたResNet-50の分類精度、参照画像に対する知覚距離などのサンプル品質スコアについて報告する。
論文 参考訳(メタデータ) (2021-11-10T17:49:29Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。