論文の概要: Language Aligned Visual Representations Predict Human Behavior in
Naturalistic Learning Tasks
- arxiv url: http://arxiv.org/abs/2306.09377v1
- Date: Thu, 15 Jun 2023 08:18:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 16:35:08.500057
- Title: Language Aligned Visual Representations Predict Human Behavior in
Naturalistic Learning Tasks
- Title(参考訳): 自然主義的学習課題における人間の行動を予測する言語対応視覚表現
- Authors: Can Demircan, Tankred Saanum, Leonardo Pettini, Marcel Binz, Blazej M
Baczkowski, Paula Kaanders, Christian F Doeller, Mona M Garvert, Eric Schulz
- Abstract要約: 人間は自然物の関連する特徴を識別し、一般化する能力を持っている。
カテゴリー学習と報奨学習の2つの実験を行った。
参加者は数回の臨床試験で関連する刺激の特徴を特定できた。
本研究では,多様な深層学習モデルの試行錯誤精度を評価するため,広範囲なモデル比較を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans possess the ability to identify and generalize relevant features of
natural objects, which aids them in various situations. To investigate this
phenomenon and determine the most effective representations for predicting
human behavior, we conducted two experiments involving category learning and
reward learning. Our experiments used realistic images as stimuli, and
participants were tasked with making accurate decisions based on novel stimuli
for all trials, thereby necessitating generalization. In both tasks, the
underlying rules were generated as simple linear functions using stimulus
dimensions extracted from human similarity judgments. Notably, participants
successfully identified the relevant stimulus features within a few trials,
demonstrating effective generalization. We performed an extensive model
comparison, evaluating the trial-by-trial predictive accuracy of diverse deep
learning models' representations of human choices. Intriguingly,
representations from models trained on both text and image data consistently
outperformed models trained solely on images, even surpassing models using the
features that generated the task itself. These findings suggest that
language-aligned visual representations possess sufficient richness to describe
human generalization in naturalistic settings and emphasize the role of
language in shaping human cognition.
- Abstract(参考訳): 人間は自然物の関連する特徴を識別し、一般化する能力を持っており、様々な状況でそれらを助ける。
この現象を調査し,人間の行動予測に最も効果的な表現を決定するために,カテゴリー学習と報酬学習の2つの実験を行った。
実験では写実的なイメージを刺激として使用し,すべての実験で新たな刺激に基づいて正確な判断を行うことを課題とし,一般化を要した。
両課題において, 人間の類似性判定から抽出した刺激次元を用いて, 基本ルールを単純な線形関数として生成した。
特に、参加者はいくつかの試行で関連する刺激の特徴を同定し、効果的な一般化を示した。
本研究では,多種多様な深層学習モデルの人間選択表現の試行錯誤精度を評価するため,広範囲なモデル比較を行った。
興味深いことに、テキストと画像データの両方でトレーニングされたモデルからの表現は、画像のみでトレーニングされたモデルよりも一貫して優れています。
これらの結果から,言語対応の視覚表現は,自然主義的な環境下での人間の一般化を記述するのに十分な豊かさを持っていることが示唆された。
関連論文リスト
- Human Simulacra: A Step toward the Personification of Large Language
Models [19.2466344494202]
大規模言語モデル(LLM)は、人間の知性の側面を忠実に模倣するシステムとして認識されている。
本稿では,仮想キャラクタのライフストーリーをゼロから構築するためのフレームワークを提案する。
実験により, 構築したシミュラクラは, 対象キャラクタと一致した擬人化応答を生成できることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:11:14Z) - Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [53.7168869241458]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Using Artificial Populations to Study Psychological Phenomena in Neural
Models [0.0]
言語モデルにおける認知行動の調査は、意味のある結果を得るために適切な集団で行う必要がある。
我々は、実験集団を効率的に構築するために、新しいアプローチにおける不確実性推定の作業を活用する。
本研究では,不確実性推定文献の理論的根拠と,言語モデルに関する現在の認知作業からのモチベーションを提供する。
論文 参考訳(メタデータ) (2023-08-15T20:47:51Z) - Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。
これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。
これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文 参考訳(メタデータ) (2023-06-06T18:00:01Z) - Human Image Generation: A Comprehensive Survey [60.63589576693112]
本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。
異なる手法の利点と特徴は、モデルアーキテクチャと入出力要求の観点から要約される。
幅広い応用可能性のために、合成された人間の画像の典型的なダウンストリーム利用、すなわち、個人認識タスクのためのデータ拡張と、ファッション顧客のためのバーチャルトライオンの2つがカバーされている。
論文 参考訳(メタデータ) (2022-12-17T15:19:45Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - Model-agnostic Fits for Understanding Information Seeking Patterns in
Humans [0.0]
不確実な意思決定タスクでは、人間はそのタスクに関連する情報を探し、統合し、行動する際、特徴的なバイアスを示す。
ここでは,これらのバイアスを総合的に測定・分類した,大規模に収集した先行設計実験のデータを再検討した。
これらのバイアスを集約的に再現するディープラーニングモデルを設計し、個々の行動の変化を捉えます。
論文 参考訳(メタデータ) (2020-12-09T04:34:58Z) - Action similarity judgment based on kinematic primitives [48.99831733355487]
運動学に基づく計算モデルが動作類似性を決定する範囲について検討する。
選択されたモデルは、発達ロボティクスにルーツを持ち、学習されたキネマティックプリミティブに基づいて行動分類を行う。
その結果, 動作類似性タスクにおいて, モデルと人的性能の双方が, 運動レベルの特徴に基づく精度が高いことがわかった。
論文 参考訳(メタデータ) (2020-08-30T13:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。