論文の概要: Would you still call this Dax? Novel Visual References in VLMs and Humans
- arxiv url: http://arxiv.org/abs/2606.05409v2
- Date: Mon, 08 Jun 2026 17:17:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:04.971447
- Title: Would you still call this Dax? Novel Visual References in VLMs and Humans
- Title(参考訳): あなたはまだダックスと呼ぶだろうか? VLMと人間の新しいビジュアル参照
- Authors: Ada Defne Tür, Gaurav Kamath, Joyce Chai, Siva Reddy, Benno Krojer,
- Abstract要約: 我々は,新しいビジュアル参照データセット(NVRD):90の視覚概念にまたがる19,176のイメージを,様々な視覚的ノベルティのレベルにわたって提示する。
慣れ親しんだ概念の視覚的増強に関する以前の研究とは異なり、NVRDはスクラッチから構築された全く新しいオープンエンド刺激で構成されている。
3つのオープンソースモデルと2つのクローズドソースモデルと2,400人の人的判断を合わせて評価し、(i)モデルが先行知識と矛盾する場合にコンテキスト内で新しい概念を取得するのに苦労していること、(ii)モデルと人間が視覚的摂動に相関した感度を示す一方で、モデルは大幅に過大化し、学習ラベルを人間の刺激に拡張することを見出した。
- 参考スコア(独自算出の注目度): 37.55209893931571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs), like human learners, are frequently exposed to new visual concepts, but how they map novel visual references to language after exposure remains largely underexplored, particularly when those references contradict prior knowledge from pre-training. To study this, we present the Novel Visual References Dataset (NVRD): 19,176 images spanning 90 visual concepts across different levels of visual novelty, each with up to 20 increasingly perturbed versions of the original object to probe generalization. Unlike prior work on visual augmentations of familiar concepts, NVRD comprises entirely novel, open-ended stimuli constructed from scratch, mirroring how humans encounter genuinely new concepts. We evaluate 3 open- and 2 closed-source models alongside 2,400 human judgments for direct human-model comparison, and find that (i) models struggle to acquire novel concepts in-context when they contradict prior knowledge, and (ii) while models and humans show correlated sensitivity to visual perturbations, models significantly overgeneralize, extending learned labels to stimuli that humans reject. We contribute NVRD as a corpus and benchmark for research on visual concept learning in both humans and machines.
- Abstract(参考訳): 視覚言語モデル(VLM)は、人間の学習者と同様、しばしば新しい視覚概念に露出するが、露出後の言語への新しい視覚的参照をどうマップするかは、特に事前学習からの事前知識と矛盾する場合に、ほとんど未発見のままである。
そこで本研究では,90種類の視覚的概念にまたがる新しい視覚的参照データセット(NVRD: Novel Visual References Dataset)について紹介する。
NVRDは、慣れ親しんだ概念を視覚的に拡張する以前の研究とは異なり、全く新しいオープンエンドの刺激をゼロから作り、人間が真に新しい概念にどのように遭遇するかを反映している。
我々は3つのオープンソースモデルと2つのクローズドソースモデルと2,400人の人的判断を、直接人的モデル比較のために評価し、それを見いだす。
一 モデルが先行知識と矛盾する場合に、文脈における新しい概念の獲得に苦慮し、
(II) モデルとヒトは視覚摂動に相関した感度を示す一方で、モデルは明らかに過度に一般化し、学習されたラベルを人間が拒絶する刺激へと拡張する。
我々は、人間と機械の両方における視覚概念学習の研究のためのコーパスおよびベンチマークとしてNVRDを貢献する。
関連論文リスト
- Does Visual Grounding Enhance the Understanding of Embodied Knowledge in Large Language Models? [5.726418224480853]
視覚言語モデル(VLM)は、どちらのタスクでもテキストのみのモデルより優れているわけではない。
VLMは、他の知覚次元と比較して視覚次元が著しく悪い。
本研究は,マルチモーダル言語モデルにおけるエンボディド知識のより効果的な統合の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-10-19T16:43:04Z) - Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models [51.900488744931785]
視覚抽象化のためのAIシステムの能力を評価し改善するためのビジュアルグラフアリーナ(VGA)を導入する。
人間はタスク間でほぼ完璧な精度を達成し、モデルは同型検出で完全に失敗し、パス/サイクルタスクにおいて限られた成功を示した。
表現不変推論の課題を分離することにより、VGAは、AIビジュアルモデルにおける人間のような概念化に向けた前進を促進するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2025-06-06T17:06:25Z) - ViGoR: Improving Visual Grounding of Large Vision Language Models with Fine-Grained Reward Modeling [35.098725056881655]
大型視覚言語モデル(LVLM)は前例のない視覚推論能力を示している。
生成されたテキストは、しばしば視覚入力の不正確な接地に悩まされ、既存のシーン要素の幻覚などのエラーが発生する。
そこで我々は,LVLMの視覚的接地性を高めるために,微粒な報酬モデルを用いた新しいフレームワークViGoRを提案する。
論文 参考訳(メタデータ) (2024-02-09T01:00:14Z) - Knowledge-augmented Few-shot Visual Relation Detection [25.457693302327637]
視覚的関係検出(VRD)は、画像理解のためのオブジェクト間の関係を検出することを目的としている。
既存のVRD手法の多くは、良好なパフォーマンスを達成するために、各関係の何千ものトレーニングサンプルに依存している。
我々は、テキスト知識と視覚的関係知識の両方を活用する、知識を付加した、数発のVRDフレームワークを考案する。
論文 参考訳(メタデータ) (2023-03-09T15:38:40Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。