論文の概要: Patent Figure Classification using Large Vision-language Models
- arxiv url: http://arxiv.org/abs/2501.12751v1
- Date: Wed, 22 Jan 2025 09:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:53:42.548556
- Title: Patent Figure Classification using Large Vision-language Models
- Title(参考訳): 大規模視覚言語モデルを用いた特許図の分類
- Authors: Sushil Awale, Eric Müller-Budack, Ralph Ewerth,
- Abstract要約: 大規模視覚言語モデル (LVLM) は、多くのコンピュータビジョンの下流タスクにおいて大きなパフォーマンスを示している。
本稿では,特許図形視覚質問応答(VQA)と分類におけるLVLMの有効性について検討し,ゼロショットと少数ショットの学習シナリオに着目した。
LVLMを用いた多数のクラスを計算効率よく処理するために,新しいトーナメントスタイルの分類戦略を提案する。
- 参考スコア(独自算出の注目度): 7.505532091249881
- License:
- Abstract: Patent figure classification facilitates faceted search in patent retrieval systems, enabling efficient prior art search. Existing approaches have explored patent figure classification for only a single aspect and for aspects with a limited number of concepts. In recent years, large vision-language models (LVLMs) have shown tremendous performance across numerous computer vision downstream tasks, however, they remain unexplored for patent figure classification. Our work explores the efficacy of LVLMs in patent figure visual question answering (VQA) and classification, focusing on zero-shot and few-shot learning scenarios. For this purpose, we introduce new datasets, PatFigVQA and PatFigCLS, for fine-tuning and evaluation regarding multiple aspects of patent figures~(i.e., type, projection, patent class, and objects). For a computational-effective handling of a large number of classes using LVLM, we propose a novel tournament-style classification strategy that leverages a series of multiple-choice questions. Experimental results and comparisons of multiple classification approaches based on LVLMs and Convolutional Neural Networks (CNNs) in few-shot settings show the feasibility of the proposed approaches.
- Abstract(参考訳): 特許図形分類は、特許検索システムにおける顔検索を容易にし、効率的な先行検索を可能にする。
既存のアプローチでは、単一の側面と限られた数の概念を持つ側面に対してのみ特許フィギュア分類が検討されている。
近年、大規模視覚言語モデル (LVLM) は、多くのコンピュータビジョンの下流タスクにおいて大きな性能を示してきたが、特許図の分類については未定のままである。
本稿では,特許図形視覚質問応答(VQA)と分類におけるLVLMの有効性について検討し,ゼロショットと少数ショットの学習シナリオに着目した。
本研究では,特許図の複数の側面(タイプ,投影,特許クラス,オブジェクト)を微調整し,評価するための新しいデータセットPatFigVQAとPatFigCLSを紹介する。
LVLMを用いた多数のクラスを計算効率よく処理するために,複数項目の質問を取り入れたトーナメントスタイルの分類戦略を提案する。
LVLMと畳み込みニューラルネットワーク(CNN)に基づく複数分類手法の実験結果と比較結果から,提案手法の有効性が示された。
関連論文リスト
- LC-Protonets: Multi-label Few-shot learning for world music audio tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文 参考訳(メタデータ) (2024-09-17T15:13:07Z) - Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文 参考訳(メタデータ) (2024-09-03T12:34:21Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - Classification of Visualization Types and Perspectives in Patents [9.123089032348311]
我々は、特許画像の可視化タイプと視点の分類に最先端のディープラーニング手法を採用する。
我々は、画像の観点から弱いラベル付きデータを提供するデータセットから、階層的な一連のクラスを導出する。
論文 参考訳(メタデータ) (2023-07-19T21:45:07Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - A Study on Representation Transfer for Few-Shot Learning [5.717951523323085]
ほとんどショットの分類は、いくつかのラベル付き例を使って、新しいオブジェクトカテゴリを適切に分類することを目的としていない。
本研究では, 様々な特徴表現の体系的研究を行い, 数発の分類を行う。
より複雑なタスクからの学習は、数ショットの分類においてより良い表現を与える傾向にある。
論文 参考訳(メタデータ) (2022-09-05T17:56:02Z) - Automatically Discovering Novel Visual Categories with Self-supervised
Prototype Learning [68.63910949916209]
本稿では,大規模な画像収集において未知のカテゴリを識別することを目的とした,新しいカテゴリ発見(NCD)の課題に取り組む。
本稿では,プロトタイプ表現学習とプロトタイプ自己学習という,2つの主要な段階からなる適応型プロトタイプ学習手法を提案する。
本研究では,4つのベンチマークデータセットについて広範な実験を行い,提案手法の有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2022-08-01T16:34:33Z) - Few-shot Classification via Adaptive Attention [93.06105498633492]
ごく少数の参照サンプルに基づいて,クエリサンプル表現を最適化し,高速に適応する新しい数ショット学習手法を提案する。
実験で実証したように,提案モデルでは,様々なベンチマーク数ショット分類と微粒化認識データセットを用いて,最先端の分類結果を達成している。
論文 参考訳(メタデータ) (2020-08-06T05:52:59Z) - Fine-Grained Visual Classification via Progressive Multi-Granularity
Training of Jigsaw Patches [67.51747235117]
きめ細かい視覚分類(FGVC)は従来の分類よりもはるかに難しい。
最近の研究は主に、最も差別的な部分の発見に焦点をあてることによってこの問題に対処している。
本稿では,これらの問題に対処するための視覚的細粒度分類のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-03-08T19:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。