論文の概要: Blocks as Probes: Dissecting Categorization Ability of Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2409.01560v1
- Date: Tue, 3 Sep 2024 02:55:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 03:06:29.177257
- Title: Blocks as Probes: Dissecting Categorization Ability of Large Multimodal Models
- Title(参考訳): プローブとしてのブロック:大規模マルチモーダルモデルの分類能力の分離
- Authors: Bin Fu, Qiyang Wan, Jialin Li, Ruiping Wang, Xilin Chen,
- Abstract要約: 近年,LMM (Large Multimodal Models) の開発が進んでいる。
我々はComBoと呼ばれる複合ブロックをベースとした新しい、挑戦的で効率的なベンチマークを提案し、このベンチマークは不整合評価フレームワークを提供する。
LMMは、新しいカテゴリーを学習する際に許容できる一般化能力を示すが、多くの点で人間に比べてまだギャップがある。
- 参考スコア(独自算出の注目度): 31.47100708645748
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Categorization, a core cognitive ability in humans that organizes objects based on common features, is essential to cognitive science as well as computer vision. To evaluate the categorization ability of visual AI models, various proxy tasks on recognition from datasets to open world scenarios have been proposed. Recent development of Large Multimodal Models (LMMs) has demonstrated impressive results in high-level visual tasks, such as visual question answering, video temporal reasoning, etc., utilizing the advanced architectures and large-scale multimodal instruction tuning. Previous researchers have developed holistic benchmarks to measure the high-level visual capability of LMMs, but there is still a lack of pure and in-depth quantitative evaluation of the most fundamental categorization ability. According to the research on human cognitive process, categorization can be seen as including two parts: category learning and category use. Inspired by this, we propose a novel, challenging, and efficient benchmark based on composite blocks, called ComBo, which provides a disentangled evaluation framework and covers the entire categorization process from learning to use. By analyzing the results of multiple evaluation tasks, we find that although LMMs exhibit acceptable generalization ability in learning new categories, there are still gaps compared to humans in many ways, such as fine-grained perception of spatial relationship and abstract category understanding. Through the study of categorization, we can provide inspiration for the further development of LMMs in terms of interpretability and generalization.
- Abstract(参考訳): 分類は、共通の特徴に基づいてオブジェクトを整理する人間の中核的な認知能力であり、認知科学だけでなくコンピュータビジョンにも不可欠である。
ビジュアルAIモデルの分類能力を評価するため、データセットからオープンワールドシナリオへの認識における様々なプロキシタスクが提案されている。
近年のLMM(Large Multimodal Models)は,視覚的質問応答やビデオ時間的推論,高度なアーキテクチャの活用,大規模マルチモーダル指導のチューニングなど,高度な視覚的タスクにおいて顕著な成果を上げている。
従来の研究者は、LMMの高レベルな視覚能力を測定するための総合的なベンチマークを開発してきたが、最も基本的な分類能力の純粋で詳細な定量的評価はいまだに存在しない。
人間の認知過程の研究によると、分類はカテゴリー学習とカテゴリー利用の2つの部分を含むと見なすことができる。
そこで我々はComBoという複合ブロックをベースとした,新しい,挑戦的で効率的なベンチマークを提案し,このベンチマークは不整合評価フレームワークを提供し,学習から使用までの分類プロセス全体をカバーしている。
複数の評価課題の結果を分析することで,LMMは新たなカテゴリの学習において許容できる一般化能力を示すが,空間的関係のきめ細かい認識や抽象的カテゴリ理解など,多くの点で人間との違いがあることがわかった。
分類の研究を通じて、解釈可能性と一般化の観点からLMMのさらなる発展にインスピレーションを与えることができる。
関連論文リスト
- Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - VisualCritic: Making LMMs Perceive Visual Quality Like Humans [65.59779450136399]
広視野画像の主観的品質評価のための最初のLMMであるVisualCriticを提案する。
VisualCriticは、データセット固有の適応操作を必要とせずに、最初からさまざまなデータにまたがって使用することができる。
論文 参考訳(メタデータ) (2024-03-19T15:07:08Z) - Unsupervised discovery of Interpretable Visual Concepts [0.0]
モデルの決定を説明する2つの方法を提案し,グローバルな解釈可能性を高める。
咬合・感性分析(因果性を含む)にインスパイアされた1つの方法
別の方法は、クラス認識順序相関 (Class-Aware Order correlation, CAOC) と呼ばれる新しいメトリクスを用いて、最も重要な画像領域を世界規模で評価する。
論文 参考訳(メタデータ) (2023-08-31T07:53:02Z) - Contrastive Learning with Cross-Modal Knowledge Mining for Multimodal
Human Activity Recognition [1.869225486385596]
複数のモダリティを活用することによって、より良い認識がもたらされるという仮説を探求する。
我々は、近年、人間活動認識の課題に対して、多くの対照的な自己監督的アプローチを拡張している。
マルチモーダルな自己教師型学習を実現するための,フレキシブルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T10:39:16Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - Enhancing efficiency of object recognition in different categorization
levels by reinforcement learning in modular spiking neural networks [1.392250707100996]
本稿では,異なる分類レベルにおける物体認識のための計算モデルを提案する。
強化学習規則を備えたスパイクニューラルネットワークは、各分類レベルでモジュールとして使用される。
各分類レベルで必要な情報に基づいて、関連する帯域通過フィルタ画像を利用する。
論文 参考訳(メタデータ) (2021-02-10T12:33:20Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。