論文の概要: VISaGE: Understanding Visual Generics and Exceptions
- arxiv url: http://arxiv.org/abs/2510.12548v1
- Date: Tue, 14 Oct 2025 14:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.345572
- Title: VISaGE: Understanding Visual Generics and Exceptions
- Title(参考訳): VISaGE:ビジュアルジェネリックと例外を理解する
- Authors: Stella Frank, Emily Allaway,
- Abstract要約: 概念的理解は,現実的先行の前提となる相似性の仮定が相反する画像に反した場合に低下することを示す。
この効果は、個々のインスタンスについてクエリする前のセマンティックの影響よりも強い。
- 参考スコア(独自算出の注目度): 5.58363934723231
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Vision Language Models (VLMs) learn conceptual representations, in the form of generalized knowledge, during training, they are typically used to analyze individual instances. When evaluation instances are atypical, this paradigm results in tension between two priors in the model. The first is a pragmatic prior that the textual and visual input are both relevant, arising from VLM finetuning on congruent inputs; the second is a semantic prior that the conceptual representation is generally true for instances of the category. In order to understand how VLMs trade off these priors, we introduce a new evaluation dataset, VISaGE, consisting of both typical and exceptional images. In carefully balanced experiments, we show that conceptual understanding degrades when the assumption of congruency underlying the pragmatic prior is violated with incongruent images. This effect is stronger than the effect of the semantic prior when querying about individual instances.
- Abstract(参考訳): ビジョン言語モデル(VLM)は概念表現を学習するが、一般的な知識の形で、訓練中は個々のインスタンスを分析するのに使われるのが一般的である。
評価インスタンスが非典型的である場合、このパラダイムはモデル内の2つの事前の緊張をもたらす。
ひとつは、テキスト入力と視覚入力の両方が関連性があること、もうひとつはVLMファインタニングから生じていること、もうひとつは概念表現がカテゴリのインスタンスに一般的に当てはまることのセマンティックな前である。
従来のVLMのトレードオフを理解するため,典型的画像と例外的画像の両方からなる新たな評価データセットVISaGEを導入する。
慎重にバランスのとれた実験では、概念的理解は、現実的先行の前提となる相似性の仮定が相反する画像に反するときに低下することを示した。
この効果は、個々のインスタンスについてクエリする前のセマンティックの影響よりも強い。
関連論文リスト
- Perceptual Inductive Bias Is What You Need Before Contrastive Learning [5.293464312554111]
デビッド・マーの人間知覚の理論は、視覚処理は多段階の過程であると定めている。
対照的表現学習フレームワークは典型的にこの明示的な多段階的アプローチを回避し、目的をオブジェクトの意味表現空間の直接学習として定義する。
本稿では,Marr の多段階理論を利用する場合,ResNet18 上での知覚的コンバージェンスによる境界表現と表面表現を2倍に高速化することを示した。
論文 参考訳(メタデータ) (2025-06-01T22:32:37Z) - Identifying and interpreting non-aligned human conceptual
representations using language modeling [0.0]
先天性失明は,a-モダル語と知覚関連言語ドメインの両方において概念的再編成を引き起こすことを示す。
視覚障害者は、より強く社会的・認知的な意味と、行動に関連する動詞を関連づける。
一部の動詞では、盲目と盲目の表現は非常に似ている。
論文 参考訳(メタデータ) (2024-03-10T13:02:27Z) - Comparing supervised learning dynamics: Deep neural networks match human data efficiency but show a generalisation lag [3.0333265803394993]
近年の研究では、画像分類分野における人間とディープニューラルネットワーク(DNN)の行動比較が数多く行われている。
本稿では、人間の観察者および様々な古典的かつ最先端のDNNにおける学習力学の詳細な研究について報告する。
学習プロセス全体にわたって、十分に学習された表現が、これまで見つからなかったテストデータにどのように一般化できるかを評価し、比較する。
論文 参考訳(メタデータ) (2024-02-14T16:47:20Z) - Predictive Churn with the Set of Good Models [61.00058053669447]
本稿では,予測的不整合という2つの無関係な概念の関連性について考察する。
予測多重性(英: predictive multiplicity)は、個々のサンプルに対して矛盾する予測を生成するモデルである。
2つ目の概念である予測チャーン(英: predictive churn)は、モデル更新前後の個々の予測の違いを調べるものである。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。