論文の概要: Constructive Apraxia: An Unexpected Limit of Instructible Vision-Language Models and Analog for Human Cognitive Disorders
- arxiv url: http://arxiv.org/abs/2410.03551v1
- Date: Tue, 17 Sep 2024 18:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 21:29:56.887591
- Title: Constructive Apraxia: An Unexpected Limit of Instructible Vision-Language Models and Analog for Human Cognitive Disorders
- Title(参考訳): コンストラクティブ・アプラキシア--人間の認知障害の予測不可能なビジョン・ランゲージモデルとアナロジー-
- Authors: David Noever, Samantha E. Miller Noever,
- Abstract要約: 本研究は、視覚言語モデル(VLM)と人間の認知障害、特に建設的失語症との予期せぬ平行関係を明らかにする。
コンストラクティブ・アプラキシアの臨床的評価において,基本的空間推論を必要とするポンゾイリュージョンの画像を生成する能力について,25種類の最先端のVLMを検証した。
注目すべきは、25モデル中24モデルが2本の水平線を視界の背景に対して正しくレンダリングできなかったことだ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study reveals an unexpected parallel between instructible vision-language models (VLMs) and human cognitive disorders, specifically constructive apraxia. We tested 25 state-of-the-art VLMs, including GPT-4 Vision, DALL-E 3, and Midjourney v5, on their ability to generate images of the Ponzo illusion, a task that requires basic spatial reasoning and is often used in clinical assessments of constructive apraxia. Remarkably, 24 out of 25 models failed to correctly render two horizontal lines against a perspective background, mirroring the deficits seen in patients with parietal lobe damage. The models consistently misinterpreted spatial instructions, producing tilted or misaligned lines that followed the perspective of the background rather than remaining horizontal. This behavior is strikingly similar to how apraxia patients struggle to copy or construct simple figures despite intact visual perception and motor skills. Our findings suggest that current VLMs, despite their advanced capabilities in other domains, lack fundamental spatial reasoning abilities akin to those impaired in constructive apraxia. This limitation in AI systems provides a novel computational model for studying spatial cognition deficits and highlights a critical area for improvement in VLM architecture and training methodologies.
- Abstract(参考訳): 本研究は、視覚言語モデル(VLM)と人間の認知障害、特に建設的失語症との予期せぬ平行関係を明らかにする。
GPT-4 Vision, DALL-E 3, Midjourney v5を含む25種類の最先端のVLMを, 基本的空間的推論を必要とするPonzoイリュージョンの画像を生成する能力について検討した。
注目すべきは、25モデル中24モデルが2本の水平線を視界の背景に対して正しくレンダリングできなかったことだ。
モデルは常に空間的な指示を誤って解釈し、傾いた線や不整合線を生み出す。
この行動は、視力や運動能力に欠けるにもかかわらず、アプラキシア患者が単純な人物のコピーや構成に苦しむのと著しく似ている。
以上の結果から,現在のVLMは,他の領域の高度な機能にもかかわらず,建設的失語症と類似した空間的推論能力が欠如していることが示唆された。
このAIシステムの制限は、空間認知障害を研究するための新しい計算モデルを提供し、VLMアーキテクチャとトレーニング方法論の改善のための重要な領域を強調している。
関連論文リスト
- ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Demonstration of an Adversarial Attack Against a Multimodal Vision Language Model for Pathology Imaging [1.279856000554626]
本研究では,視覚言語基盤モデルであるPLIPモデルの脆弱性を標的攻撃下で調査する。
我々は、意図的に誤分類を誘発するために、PGD(Projected Gradient Descent)の逆方向摂動攻撃を用いる。
この研究は、AIモデルの信頼性を確保するための堅牢な防御の必要性を強調している。
論文 参考訳(メタデータ) (2024-01-04T22:49:15Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文 参考訳(メタデータ) (2023-10-23T04:49:09Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - UnICLAM:Contrastive Representation Learning with Adversarial Masking for
Unified and Interpretable Medical Vision Question Answering [7.2486693553383805]
現在のメディカルVQAモデルは、視覚とテクスチャエンコーダを2つの別々の空間に配置することで、クロスモーダル表現を学習する。
本稿では,Unified and Interpretable Medical-VQAモデルであるUnICLAMを提案する。
VQA-RADとSLAKEの公開ベンチマークの実験結果は、UnICLAMが既存の11の最先端の医療VQAモデルより優れていることを示している。
論文 参考訳(メタデータ) (2022-12-21T02:48:15Z) - Improving Clinician Performance in Classification of EEG Patterns on the Ictal-Interictal-Injury Continuum using Interpretable Machine Learning [15.548202338334615]
集中治療室(ICUs)では、重度の脳損傷を防ぐために、重度疾患のある患者は脳波(EEGs)で監視される。
ブラックボックスのディープラーニングモデルは信頼できない、トラブルシューティングが難しい、現実世界のアプリケーションでは説明責任が欠如している。
本稿では,有害脳波パターンの存在を予測する新しい解釈可能な深層学習モデルを提案する。
論文 参考訳(メタデータ) (2022-11-09T21:33:40Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - On Interpretability of Deep Learning based Skin Lesion Classifiers using
Concept Activation Vectors [6.188009802619095]
メラノーマ, メラノーマ, セボリックケラトーシスの3種類の皮膚腫瘍の分類には, 十分に訓練された高性能ニューラルネットワークを用いている。
概念活性化ベクトル(CAV)の助けを借りて、人間の理解可能な概念をRECOD画像分類モデルにマッピングする
論文 参考訳(メタデータ) (2020-05-05T08:27:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。