論文の概要: Basic Category Usage in Vision Language Models
- arxiv url: http://arxiv.org/abs/2503.12530v1
- Date: Sun, 16 Mar 2025 14:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:05.776096
- Title: Basic Category Usage in Vision Language Models
- Title(参考訳): 視覚言語モデルにおける基本カテゴリー利用
- Authors: Hunter Sawyer, Jesse Roberts, Kyle Moore,
- Abstract要約: 心理学の分野は、1976年にロッシュによって造語された視覚刺激のラベル付けに人間が使用する基本的な分類のレベルを長年認識してきた。
本稿では、最近リリースされた2つのオープンソースのビジョン言語モデル(VLM)の基本レベル分類について検討する。
本稿では,Llama 3.2 Vision Instruct (11B) と Molmo 7B-D が共に,人間の行動に整合した基本的なレベル分類を好むことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The field of psychology has long recognized a basic level of categorization that humans use when labeling visual stimuli, a term coined by Rosch in 1976. This level of categorization has been found to be used most frequently, to have higher information density, and to aid in visual language tasks with priming in humans. Here, we investigate basic level categorization in two recently released, open-source vision-language models (VLMs). This paper demonstrates that Llama 3.2 Vision Instruct (11B) and Molmo 7B-D both prefer basic level categorization consistent with human behavior. Moreover, the models' preferences are consistent with nuanced human behaviors like the biological versus non-biological basic level effects and the well established expert basic level shift, further suggesting that VLMs acquire cognitive categorization behaviors from the human data on which they are trained.
- Abstract(参考訳): 心理学の分野は、1976年にロッシュによって造語された視覚刺激のラベル付けに人間が使用する基本的な分類のレベルを長年認識してきた。
この分類のレベルは、高い情報密度を持ち、人間のプライミングを伴う視覚言語タスクを支援するために最も頻繁に使用される。
本稿では、最近リリースされた2つのオープンソースのビジョン言語モデル(VLM)における基本レベル分類について検討する。
本稿では,Llama 3.2 Vision Instruct (11B) と Molmo 7B-D が共に,人間の行動に整合した基本的なレベル分類を好むことを示す。
さらに、モデルの嗜好は、生物学的および非生物学的基礎レベル効果や、十分に確立された専門家の基本レベルシフトのような、微妙な人間の行動と一致しており、さらに、VLMが訓練された人間のデータから認知的分類行動を取得することを示唆している。
関連論文リスト
- Verbalized Representation Learning for Interpretable Few-Shot Generalization [130.8173035901391]
Verbalized Representation Learning (VRL)は、オブジェクト認識のための人間の解釈可能な特徴を自動的に抽出する新しいアプローチである。
本手法は,クラス間の差異とクラス内共通点を自然言語形式で把握する。
VRLは従来の最先端手法よりも24%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2024-11-27T01:55:08Z) - LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction [63.668635390907575]
既存の手法は、視覚言語モデル(VLM)の頑健なオープン語彙認識機能を活用することにより、オープン語彙オブジェクト検出を強化している。
本稿では,視覚的概念間の関係を生かしたLanguage Model Instruction(LaMI)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-16T02:58:33Z) - How Well Do Deep Learning Models Capture Human Concepts? The Case of the Typicality Effect [2.3622884172290255]
近年,言語モデルと視覚モデルにおける人間のような典型的効果を求める研究は,単一のモダリティのモデルに焦点を当てている。
本研究では、より広い範囲の言語と視覚モデルを考えることにより、このモデルに対する行動評価を拡大する。
また、視覚+言語モデルペアの典型性予測とマルチモーダルCLIPベースのモデルの組み合わせが、どちらのモダリティ単独のモデルよりも人間の典型性判断に適合しているかどうかを評価する。
論文 参考訳(メタデータ) (2024-05-25T08:38:30Z) - Naming, Describing, and Quantifying Visual Objects in Humans and LLMs [5.59181673439492]
視覚・言語大言語モデル(VLLM)を3つのカテゴリ(名詞・属性・量化子)で評価する。
我々は、VLLMsが人間の命名選好を世代毎に捉える能力について、様々な証拠を見出している。
論文 参考訳(メタデータ) (2024-03-11T17:20:12Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Using Artificial Populations to Study Psychological Phenomena in Neural
Models [0.0]
言語モデルにおける認知行動の調査は、意味のある結果を得るために適切な集団で行う必要がある。
我々は、実験集団を効率的に構築するために、新しいアプローチにおける不確実性推定の作業を活用する。
本研究では,不確実性推定文献の理論的根拠と,言語モデルに関する現在の認知作業からのモチベーションを提供する。
論文 参考訳(メタデータ) (2023-08-15T20:47:51Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Encoding Hierarchical Information in Neural Networks helps in
Subpopulation Shift [8.01009207457926]
ディープニューラルネットワークは画像分類のタスクに適していることが証明されている。
本研究では,新しい条件付き教師あり学習フレームワークのレンズを用いて,上記の問題について検討する。
この構造的階層的な学習によって、サブ人口移動に対してより堅牢なネットワークが得られることを示す。
論文 参考訳(メタデータ) (2021-12-20T20:26:26Z) - Affect Analysis in-the-wild: Valence-Arousal, Expressions, Action Units
and a Unified Framework [83.21732533130846]
Aff-Wild と Aff-Wild2 の2つである。
これは、これらのデータベースで訓練された深層ニューラルネットワークの2つのクラスの設計を示す。
インパクト認識を共同で学び、効果的に一般化し、実行することができる新しいマルチタスクおよび全体主義のフレームワークが提示されます。
論文 参考訳(メタデータ) (2021-03-29T17:36:20Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z) - Seeing eye-to-eye? A comparison of object recognition performance in
humans and deep convolutional neural networks under image manipulation [0.0]
本研究では,ヒトとフィードフォワードニューラルネットワークの視覚コア物体認識性能の行動比較を目的とした。
精度分析の結果、人間はDCNNを全ての条件で上回るだけでなく、形状や色の変化に対する強い堅牢性も示している。
論文 参考訳(メタデータ) (2020-07-13T10:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。