Fugu-MT 論文翻訳(概要): Blocks as Probes: Dissecting Categorization Ability of Large Multimodal Models

論文の概要: Blocks as Probes: Dissecting Categorization Ability of Large Multimodal Models

arxiv url: http://arxiv.org/abs/2409.01560v1
Date: Tue, 3 Sep 2024 02:55:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 03:06:29.177257
Title: Blocks as Probes: Dissecting Categorization Ability of Large Multimodal Models
Title（参考訳）: プローブとしてのブロック:大規模マルチモーダルモデルの分類能力の分離
Authors: Bin Fu, Qiyang Wan, Jialin Li, Ruiping Wang, Xilin Chen,
Abstract要約: 近年,LMM (Large Multimodal Models) の開発が進んでいる。我々はComBoと呼ばれる複合ブロックをベースとした新しい、挑戦的で効率的なベンチマークを提案し、このベンチマークは不整合評価フレームワークを提供する。 LMMは、新しいカテゴリーを学習する際に許容できる一般化能力を示すが、多くの点で人間に比べてまだギャップがある。
参考スコア（独自算出の注目度）: 31.47100708645748
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Categorization, a core cognitive ability in humans that organizes objects based on common features, is essential to cognitive science as well as computer vision. To evaluate the categorization ability of visual AI models, various proxy tasks on recognition from datasets to open world scenarios have been proposed. Recent development of Large Multimodal Models (LMMs) has demonstrated impressive results in high-level visual tasks, such as visual question answering, video temporal reasoning, etc., utilizing the advanced architectures and large-scale multimodal instruction tuning. Previous researchers have developed holistic benchmarks to measure the high-level visual capability of LMMs, but there is still a lack of pure and in-depth quantitative evaluation of the most fundamental categorization ability. According to the research on human cognitive process, categorization can be seen as including two parts: category learning and category use. Inspired by this, we propose a novel, challenging, and efficient benchmark based on composite blocks, called ComBo, which provides a disentangled evaluation framework and covers the entire categorization process from learning to use. By analyzing the results of multiple evaluation tasks, we find that although LMMs exhibit acceptable generalization ability in learning new categories, there are still gaps compared to humans in many ways, such as fine-grained perception of spatial relationship and abstract category understanding. Through the study of categorization, we can provide inspiration for the further development of LMMs in terms of interpretability and generalization.
Abstract（参考訳）: 分類は、共通の特徴に基づいてオブジェクトを整理する人間の中核的な認知能力であり、認知科学だけでなくコンピュータビジョンにも不可欠である。ビジュアルAIモデルの分類能力を評価するため、データセットからオープンワールドシナリオへの認識における様々なプロキシタスクが提案されている。近年のLMM(Large Multimodal Models)は,視覚的質問応答やビデオ時間的推論,高度なアーキテクチャの活用,大規模マルチモーダル指導のチューニングなど,高度な視覚的タスクにおいて顕著な成果を上げている。従来の研究者は、LMMの高レベルな視覚能力を測定するための総合的なベンチマークを開発してきたが、最も基本的な分類能力の純粋で詳細な定量的評価はいまだに存在しない。人間の認知過程の研究によると、分類はカテゴリー学習とカテゴリー利用の2つの部分を含むと見なすことができる。そこで我々はComBoという複合ブロックをベースとした,新しい,挑戦的で効率的なベンチマークを提案し,このベンチマークは不整合評価フレームワークを提供し,学習から使用までの分類プロセス全体をカバーしている。複数の評価課題の結果を分析することで,LMMは新たなカテゴリの学習において許容できる一般化能力を示すが,空間的関係のきめ細かい認識や抽象的カテゴリ理解など,多くの点で人間との違いがあることがわかった。分類の研究を通じて、解釈可能性と一般化の観点からLMMのさらなる発展にインスピレーションを与えることができる。

関連論文リスト

Adaptive Token Boundaries: Integrating Human Chunking Mechanisms into Multimodal LLMs [0.0]
本研究は,ヒトのクロスモーダルチャンキング機構とトークン表現手法の並列性について,系統的研究を行った。本稿では,適応的境界,階層的表現,認知科学の原理に基づくアライメント機構を取り入れた動的クロスモーダルトークン化フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-03T09:14:24Z)
Multimodal LLM Augmented Reasoning for Interpretable Visual Perception Analysis [19.032828729570458]
我々は、人間の視覚知覚における複雑さに関連する心理学と認知科学の確立した原理と説明を用いる。本研究の目的は、視覚知覚に関連する様々な説明可能性原理をMLLMにベンチマークすることである。
論文参考訳（メタデータ） (2025-04-16T22:14:27Z)
On Large Multimodal Models as Open-World Image Classifiers [71.78089106671581]
大規模マルチモーダルモデル(LMM)は、自然言語を使って画像を分類することができる。原型,非原型,きめ細かな粒度,そして非常にきめ細かいクラスを含む10のベンチマークで13のモデルを評価した。
論文参考訳（メタデータ） (2025-03-27T17:03:18Z)
Towards Understanding Graphical Perception in Large Multimodal Models [80.44471730672801]
我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
論文参考訳（メタデータ） (2025-03-13T20:13:39Z)
How Metacognitive Architectures Remember Their Own Thoughts: A Systematic Review [16.35521789216079]
計算メタ認知アーキテクチャ(CMA)がどのようにしてメタ認知経験をモデル化し、保存し、記憶し、処理するかをレビューする。基礎となる心理学理論から収集データの内容と構造、使用するアルゴリズムや評価結果まで、さまざまな側面を考察する。
論文参考訳（メタデータ） (2025-02-28T08:48:41Z)
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。 VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。 GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
Revisiting MLLMs: An In-Depth Analysis of Image Classification Abilities [31.293869275511412]
本稿では、画像分類の詳細な分析により、MLLM(Multimodal Large Language Models)を徹底的に再検討する。この結果から,最新のMLLMは,複数のデータセット上でCLIPスタイルの視覚言語モデルに適合し,さらに優れることがわかった。
論文参考訳（メタデータ） (2024-12-21T00:46:56Z)
Contextuality Helps Representation Learning for Generalized Category Discovery [5.885208652383516]
本稿では、文脈性の概念を活用することにより、一般化カテゴリー発見(GCD)への新たなアプローチを提案する。我々のモデルでは,コントラスト学習に最も近いコンテキストが使用されるインスタンスレベルと,コントラスト学習を利用するクラスタレベルという,2つのコンテキストレベルを統合している。文脈情報の統合は、特徴学習を効果的に改善し、その結果、すべてのカテゴリの分類精度が向上する。
論文参考訳（メタデータ） (2024-07-29T07:30:41Z)
Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。最近の傾向は、これらの2つの分野の潜在的均一性を示している。本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文参考訳（メタデータ） (2024-07-01T07:05:44Z)
Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文参考訳（メタデータ） (2024-06-13T17:59:20Z)
VisualCritic: Making LMMs Perceive Visual Quality Like Humans [65.59779450136399]
広視野画像の主観的品質評価のための最初のLMMであるVisualCriticを提案する。 VisualCriticは、データセット固有の適応操作を必要とせずに、最初からさまざまなデータにまたがって使用することができる。
論文参考訳（メタデータ） (2024-03-19T15:07:08Z)
Unsupervised discovery of Interpretable Visual Concepts [0.0]
モデルの決定を説明する2つの方法を提案し,グローバルな解釈可能性を高める。咬合・感性分析(因果性を含む)にインスパイアされた1つの方法別の方法は、クラス認識順序相関 (Class-Aware Order correlation, CAOC) と呼ばれる新しいメトリクスを用いて、最も重要な画像領域を世界規模で評価する。
論文参考訳（メタデータ） (2023-08-31T07:53:02Z)
Semantic Representation and Dependency Learning for Multi-Label Image Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文参考訳（メタデータ） (2022-04-08T00:55:15Z)
A Minimalist Dataset for Systematic Generalization of Perception, Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。 HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文参考訳（メタデータ） (2021-03-02T01:32:54Z)
Enhancing efficiency of object recognition in different categorization levels by reinforcement learning in modular spiking neural networks [1.392250707100996]
本稿では,異なる分類レベルにおける物体認識のための計算モデルを提案する。強化学習規則を備えたスパイクニューラルネットワークは、各分類レベルでモジュールとして使用される。各分類レベルで必要な情報に基づいて、関連する帯域通過フィルタ画像を利用する。
論文参考訳（メタデータ） (2021-02-10T12:33:20Z)
Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文参考訳（メタデータ） (2020-07-14T22:04:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。