論文の概要: On the Cognition of Visual Question Answering Models and Human
Intelligence: A Comparative Study
- arxiv url: http://arxiv.org/abs/2310.02528v1
- Date: Wed, 4 Oct 2023 02:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 16:51:16.619621
- Title: On the Cognition of Visual Question Answering Models and Human
Intelligence: A Comparative Study
- Title(参考訳): 視覚質問応答モデルと人間の知能の認知について:比較研究
- Authors: Liben Chen, Long Chen, Tian Ellison-Chen, Zhuoyuan Xu
- Abstract要約: 我々は,人間の思考過程を記録するための調査を設計し,その成果と注意図を比較してVQAモデルを解析した。
VQAモデルは、建築における人間の認知に似ており、認識レベルにおいて人間と同じような働きをするが、認知的推論に苦しむ。
- 参考スコア(独自算出の注目度): 4.442101733807905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) is a challenging task that requires
cross-modal understanding and reasoning of visual image and natural language
question. To inspect the association of VQA models to human cognition, we
designed a survey to record human thinking process and analyzed VQA models by
comparing the outputs and attention maps with those of humans. We found that
although the VQA models resemble human cognition in architecture and performs
similarly with human on the recognition-level, they still struggle with
cognitive inferences. The analysis of human thinking procedure serves to direct
future research and introduce more cognitive capacity into modeling features
and architectures.
- Abstract(参考訳): VQA(Visual Question Answering)は、画像と自然言語の相互理解と推論を必要とする課題である。
VQAモデルと人間の認知との関連性を調べるために,人間の思考過程を記録するための調査を設計し,その成果と注目マップを比較してVQAモデルを分析した。
VQAモデルは、建築における人間の認知に似ており、認識レベルにおいて人間と同じような働きをするが、認知的推論に苦しむ。
人間の思考手順の分析は将来の研究を指示し、モデリングの特徴やアーキテクチャにより多くの認知能力を導入するのに役立つ。
関連論文リスト
- Mind the Uncertainty in Human Disagreement: Evaluating Discrepancies between Model Predictions and Human Responses in VQA [26.968874222330978]
本研究は,視覚質問応答(VQA)タスクに焦点をあてる。
視覚言語モデルが人間の反応の分布とどのように相関するかを評価する。
論文 参考訳(メタデータ) (2024-09-17T13:44:25Z) - Understanding and Evaluating Human Preferences for AI Generated Images with Instruction Tuning [58.41087653543607]
我々はまず,AIGCIQA2023+と呼ばれるAIGIのための画像品質評価(IQA)データベースを構築した。
本稿では,AIGIに対する人間の嗜好を評価するためのMINT-IQAモデルを提案する。
論文 参考訳(メタデータ) (2024-05-12T17:45:11Z) - Bridging the Gap Between Saliency Prediction and Image Quality Assessment [0.0]
深部神経モデルでは画像品質評価(IQA)が大幅に進歩している
我々はIQAとSaliency Predictionタスクの関係を明らかにする実証的研究を行った。
本稿では,サリエンシ対応圧縮画像の新たなSACIDデータセットを導入し,従来のIQA法とニューラルベースIQA法の大規模比較を行う。
論文 参考訳(メタデータ) (2024-05-08T12:04:43Z) - Trends, Applications, and Challenges in Human Attention Modelling [65.61554471033844]
人間の注意モデリングは視覚探索の基礎となる認知過程を理解するのに特に有用であることが証明されている。
画像やビデオ処理、視覚・言語アプリケーション、言語モデリングなど、さまざまな領域の問題を解決することを目的とした人工知能モデルのサポートを提供する。
論文 参考訳(メタデータ) (2024-02-28T19:35:30Z) - Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model [4.41132900194195]
人手による質問(CoQAH)に対するQAの連鎖という新しい手法を提案する。
CoQAHは、大言語モデルと合成データに基づいて訓練されたVQAモデルの間の一連のQA相互作用を利用して、人間による質問に対して論理的回答を導出する。
我々は,3Dレンダー画像と胸部X線画像の2種類のVQAデータセットに対するCoQAHの有効性を検証した。
論文 参考訳(メタデータ) (2024-01-12T06:49:49Z) - Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation
Evaluation [96.74302670358145]
生成/編集された画像と対応するプロンプト/インストラクションの整合性を評価するために,視覚概念評価(ViCE)の自動手法を提案する。
ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。
論文 参考訳(メタデータ) (2023-07-18T16:33:30Z) - Perceptual Attacks of No-Reference Image Quality Models with
Human-in-the-Loop [113.75573175709573]
NR-IQAモデルの知覚的堅牢性を調べるための最初の試みの1つを行う。
我々は,4つの完全参照IQAモデルの下で,知識駆動のNR-IQA法とデータ駆動のNR-IQA法を検証した。
4つのNR-IQAモデルは全て、提案した知覚的攻撃に対して脆弱であることがわかった。
論文 参考訳(メタデータ) (2022-10-03T13:47:16Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z) - Towards a Human-Centred Cognitive Model of Visuospatial Complexity in
Everyday Driving [3.480626767752489]
我々は,自然主義運転条件下での空間的複雑性の人間中心認知モデルを構築した。
視覚的知覚に焦点を当てたモデルでは、選択された文脈で識別可能な量的、構造的、動的属性が組み込まれている。
論文 参考訳(メタデータ) (2020-05-29T20:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。