Fugu-MT 論文翻訳(概要): How Well Do Deep Learning Models Capture Human Concepts? The Case of the Typicality Effect

論文の概要: How Well Do Deep Learning Models Capture Human Concepts? The Case of the Typicality Effect

arxiv url: http://arxiv.org/abs/2405.16128v1
Date: Sat, 25 May 2024 08:38:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 00:50:39.563923
Title: How Well Do Deep Learning Models Capture Human Concepts? The Case of the Typicality Effect
Title（参考訳）: 深層学習モデルが人間の概念をいかに捉えているか : 典型的効果の場合
Authors: Siddhartha K. Vemuri, Raj Sanjay Shah, Sashank Varma,
Abstract要約: 近年,言語モデルと視覚モデルにおける人間のような典型的効果を求める研究は,単一のモダリティのモデルに焦点を当てている。本研究では、より広い範囲の言語と視覚モデルを考えることにより、このモデルに対する行動評価を拡大する。また、視覚+言語モデルペアの典型性予測とマルチモーダルCLIPベースのモデルの組み合わせが、どちらのモダリティ単独のモデルよりも人間の典型性判断に適合しているかどうかを評価する。
参考スコア（独自算出の注目度）: 2.3622884172290255
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: How well do representations learned by ML models align with those of humans? Here, we consider concept representations learned by deep learning models and evaluate whether they show a fundamental behavioral signature of human concepts, the typicality effect. This is the finding that people judge some instances (e.g., robin) of a category (e.g., Bird) to be more typical than others (e.g., penguin). Recent research looking for human-like typicality effects in language and vision models has focused on models of a single modality, tested only a small number of concepts, and found only modest correlations with human typicality ratings. The current study expands this behavioral evaluation of models by considering a broader range of language (N = 8) and vision (N = 10) model architectures. It also evaluates whether the combined typicality predictions of vision + language model pairs, as well as a multimodal CLIP-based model, are better aligned with human typicality judgments than those of models of either modality alone. Finally, it evaluates the models across a broader range of concepts (N = 27) than prior studies. There were three important findings. First, language models better align with human typicality judgments than vision models. Second, combined language and vision models (e.g., AlexNet + MiniLM) better predict the human typicality data than the best-performing language model (i.e., MiniLM) or vision model (i.e., ViT-Huge) alone. Third, multimodal models (i.e., CLIP ViT) show promise for explaining human typicality judgments. These results advance the state-of-the-art in aligning the conceptual representations of ML models and humans. A methodological contribution is the creation of a new image set for testing the conceptual alignment of vision models.
Abstract（参考訳）: MLモデルによって学習された表現は、人間の表現とどの程度一致しているか? 本稿では、深層学習モデルで学習した概念表現について考察し、それらが人間の概念の基本的な行動的シグネチャ、典型的効果を示すかどうかを評価する。これは、あるカテゴリー(例えば、鳥)のいくつかのインスタンス(例えば、ロビン)が、他のカテゴリ(例えば、ペンギン)よりも典型的であると判断する発見である。言語や視覚モデルにおける人間のような典型的効果を求める最近の研究は、単一のモダリティのモデルに焦点を当て、少数の概念のみをテストし、人間の典型的評価と緩やかな相関しか見つからなかった。現在の研究では、より広い範囲の言語 (N = 8) とビジョン (N = 10) モデルアーキテクチャを考慮し、モデルの振る舞い評価を拡張している。また、視覚+言語モデルペアの典型性予測とマルチモーダルCLIPベースのモデルの組み合わせが、どちらのモダリティ単独のモデルよりも人間の典型性判断に適合しているかどうかを評価する。最後に、先行研究よりも幅広い概念(N = 27)にわたるモデルを評価する。 3つの重要な発見があった。第一に、言語モデルは視覚モデルよりも人間の典型的判断に適合する。第2に、言語モデルと視覚モデル(例えば、AlexNet + MiniLM)は、最高のパフォーマンスを持つ言語モデル(例えば、MiniLM)や視覚モデル(例えば、ViT-Huge)よりも人間の典型データをより正確に予測する。第三に、マルチモーダルモデル(CLIP ViT)は、人間の典型的判断を説明することを約束している。これらの結果は、MLモデルと人間の概念的表現の整合化における最先端の進歩である。方法論的貢献は、視覚モデルの概念的アライメントをテストするための新しいイメージセットを作成することである。

関連論文リスト

CHART-6: Human-Centered Evaluation of Data Visualization Understanding in Vision-Language Models [18.891323067948285]
データビジュアライゼーションに関する推論を含むタスクにおいて、視覚言語モデルがどのように人間の振る舞いをエミュレートするかは不明だ。そこで我々は,人間向けに設計された6つのデータ可視化リテラシー評価において,視覚言語モデル8つを評価した。その結果、これらのモデルは平均して人間よりも悪い結果が得られた。
論文参考訳（メタデータ） (2025-05-22T18:15:04Z)
Computer Vision Models Show Human-Like Sensitivity to Geometric and Topological Concepts [1.935452308279137]
コンピュータビジョンモデルと幾何学的・トポロジカル(GT)概念に対する人間の感度について検討する。私たちは、大規模な画像データセットに基づいてトレーニングされたコンピュータビジョンモデルを使用します。トランスフォーマーベースのモデルは、幼児よりも高い総合的精度を達成する。
論文参考訳（メタデータ） (2025-05-19T16:04:53Z)
Human-Centric Foundation Models: Perception, Generation and Agentic Modeling [79.97999901785772]
人間中心のファンデーションモデルは、多様な人間中心のタスクを単一のフレームワークに統合します。我々は,現在のアプローチを4つのグループに分類する分類法を提案することで,HcFMの包括的概要を示す。この調査は、より堅牢で汎用的でインテリジェントなデジタルヒューマン・エンボディメントモデリングを目指す研究者や実践者のロードマップとして機能することを目的としている。
論文参考訳（メタデータ） (2025-02-12T16:38:40Z)
Autoregressive Models in Vision: A Survey [119.23742136065307]
本調査は、視覚に適用される自己回帰モデルに関する文献を包括的に調査する。視覚的自己回帰モデルを,画素ベース,トークンベース,スケールベースを含む3つの一般的なサブカテゴリに分割する。本稿では,画像生成,映像生成,3D生成,マルチモーダル生成など,コンピュータビジョンにおける自己回帰モデルの多面的分類を提案する。
論文参考訳（メタデータ） (2024-11-08T17:15:12Z)
Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。我々は500人以上の参加者から行動データの35万件の試行を収集した。次に、一般的な視覚モデルの性能を評価する。
論文参考訳（メタデータ） (2024-09-09T17:59:13Z)
DevBench: A multimodal developmental benchmark for language learning [0.34129029452670606]
タスクと行動データに基づいて視覚言語モデルを評価するベンチマークであるDevBenchを紹介する。 DevBenchは、モデルを人間の言語開発と比較するためのベンチマークを提供する。これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調する。
論文参考訳（メタデータ） (2024-06-14T17:49:41Z)
Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文参考訳（メタデータ） (2024-06-13T17:59:20Z)
Longer Fixations, More Computation: Gaze-Guided Recurrent Neural Networks [12.57650361978445]
人間はさまざまなペースでテキストを読み、機械学習モデルはそれぞれのトークンを同じように扱う。本稿では,この直感を固定誘導並列RNNやレイヤを用いた新しいモデルに変換する。興味深いことに、ニューラルネットワークによって予測される固定期間は、人間の固定と多少似ている。
論文参考訳（メタデータ） (2023-10-31T21:32:11Z)
Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文参考訳（メタデータ） (2023-06-06T18:00:01Z)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文参考訳（メタデータ） (2022-12-01T05:00:18Z)
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。多様な3つの視覚課題に対するUViMの有効性を実証する。
論文参考訳（メタデータ） (2022-05-20T17:47:59Z)
Exploring Alignment of Representations with Human Perception [47.53970721813083]
モデルによって類似した表現にマッピングされた入力は、人間によっても同様に認識されるべきであることを示す。我々のアプローチは、モデルが人間の知覚に合致する程度を測ります。アーキテクチャやトレーニングパラダイム,トレーニング損失,データ拡張といったモデルのさまざまな特性が,人間の知覚に整合した表現の学習において重要な役割を担っていることが分かりました。
論文参考訳（メタデータ） (2021-11-29T17:26:50Z)
End-to-end Deep Prototype and Exemplar Models for Predicting Human Behavior [10.361297404586033]
我々は古典的なプロトタイプと模範モデルを拡張し、生入力から刺激とカテゴリー表現を併用して学習する。この新しいモデルのクラスは、ディープニューラルネットワーク(DNN)とトレーニングされたエンドツーエンドによってパラメータ化できる。典型的なDNNと比較して、認知にインスパイアされた両者が、人間の行動により良い本質的な適応と、地道的分類の改善をもたらすことがわかった。
論文参考訳（メタデータ） (2020-07-17T02:32:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。