論文の概要: Dual Thinking and Logical Processing -- Are Multi-modal Large Language Models Closing the Gap with Human Vision ?
- arxiv url: http://arxiv.org/abs/2406.06967v3
- Date: Fri, 28 Feb 2025 17:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:38:45.946999
- Title: Dual Thinking and Logical Processing -- Are Multi-modal Large Language Models Closing the Gap with Human Vision ?
- Title(参考訳): デュアル思考と論理処理 - マルチモーダル大言語モデルは人間の視覚でギャップを閉じているか?
- Authors: Kailas Dayanandan, Nikhil Kumar, Anand Sinha, Brejesh Lall,
- Abstract要約: 我々は、人間の視覚における二重思考の枠組みの証拠を提供するために、新しい敵対的データセットを導入する。
私たちの精神物理学的な研究は、急速に続く複数の推論の存在を示しています。
エラーの解析は、視覚処理の早期停止は、関連する情報が欠落する可能性があることを示している。
- 参考スコア(独自算出の注目度): 5.076961098583674
- License:
- Abstract: The dual thinking framework considers fast, intuitive, and slower logical processing. The perception of dual thinking in vision requires images where inferences from intuitive and logical processing differ, and the latter is under-explored in current studies. We introduce a novel adversarial dataset to provide evidence for the dual thinking framework in human vision, which also facilitates the study of the qualitative behavior of deep learning models. Our psychophysical studies show the presence of multiple inferences in rapid succession, and analysis of errors shows that the early stopping of visual processing can result in missing relevant information. MLLMs (Multi-modal Large Language Models) and VLMs (Vision Language Models) have made significant progress in correcting errors in intuitive processing in human vision and showed enhanced performance on images requiring logical processing. However, their improvements in logical processing have not kept pace with their advancements in intuitive processing. In contrast, segmentation models exhibit errors similar to those seen in intuitive human processing and lack understanding of sub-structures, as indicated by errors related to sub-components in identified instances. As AI (Artificial Intelligence)-based systems find increasing applications in safety-critical domains like autonomous driving, the integration of logical processing capabilities becomes essential. This not only enhances performance but also addresses the limitations of scaling-based approaches while ensuring robustness and reliability in real-world environments.
- Abstract(参考訳): 二重思考フレームワークは、高速で直感的で遅い論理処理を考慮に入れている。
視覚における双対思考の知覚は直感的および論理的処理からの推論が異なるイメージを必要とし、後者は現在の研究で過小評価されている。
本稿では,人間の視覚における二元的思考の枠組みを実証するために,新たな敵対的データセットを導入し,深層学習モデルの質的行動の研究を促進する。
我々の精神物理学的な研究は、素早い連続における複数の推論の存在を示し、エラーの分析は、視覚処理の早期停止が、関連情報が欠落する可能性があることを示している。
MLLM (Multi-modal Large Language Models) と VLM (Vision Language Models) は人間の視覚における直観的処理における誤りの修正に大きく進歩し、論理処理を必要とする画像上での性能向上を示した。
しかし、論理処理の改善は直感的処理の進歩と相容れない。
対照的に、セグメンテーションモデルは、直感的な人間の処理に見られるようなエラーを示し、特定されたインスタンスのサブコンポーネントに関連するエラーによって示されるように、サブ構造の理解が欠如している。
AI(Artificial Intelligence)ベースのシステムでは、自律運転のような安全クリティカルな分野への応用が増えているため、論理処理機能の統合が不可欠である。
これはパフォーマンスを向上するだけでなく、実環境における堅牢性と信頼性を確保しながら、スケーリングベースのアプローチの限界にも対処する。
関連論文リスト
- Cognitive Paradigms for Evaluating VLMs on Visual Reasoning Task [3.2228025627337864]
機械の視覚的推論を改善するには、ビジョン・ランゲージ・モデル(VLM)がどのように複雑な視覚的パターンを処理し、解釈するかを深く理解する必要がある。
本研究は,自然画像に基づくボナード問題に基づくVLM推論を体系的に解析する,認知に着想を得た新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests [69.00444996464662]
本稿では、複雑な実世界のシナリオにおける視覚的連鎖推論を評価するために、駆動理論テストから得られた新しいベンチマークであるDrivingVQAを提案する。
実験の結果,オープンソースおよびプロプライエタリなLVLMは,ゼロショット設定下での視覚的連鎖推論に苦慮していることがわかった。
視覚的推論を改善するために関連エンティティを活用するトレーニング戦略について検討する。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Understanding the Limits of Vision Language Models Through the Lens of the Binding Problem [37.27516441519387]
現状の視覚言語モデルは、人間がほぼ完璧な精度で実行する基本的多目的推論タスクにおいて、驚くほどの失敗を示します。
我々は、最先端のVLMのファジィ障害の多くは、結合問題に起因するものだと説明でき、これらの障害モードは、ヒト脳における迅速なフィードフォワード処理によって引き起こされる制限と著しく類似していることを発見した。
論文 参考訳(メタデータ) (2024-10-31T22:24:47Z) - Towards A Unified Neural Architecture for Visual Recognition and
Reasoning [40.938279131241764]
視覚認識と推論のための統一型ニューラルアーキテクチャを提案し,両者の汎用インターフェース(トークンなど)を提案する。
我々のフレームワークは、視覚的認識タスク、データセット、帰納的バイアスが、原則化された時間的推論機能を実現するのにどのように役立つかを調べることができる。
論文 参考訳(メタデータ) (2023-11-10T20:27:43Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。