論文の概要: Can Large Language Models Grasp Event Signals? Exploring Pure Zero-Shot Event-based Recognition
- arxiv url: http://arxiv.org/abs/2409.09628v1
- Date: Sun, 15 Sep 2024 06:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 19:58:08.824311
- Title: Can Large Language Models Grasp Event Signals? Exploring Pure Zero-Shot Event-based Recognition
- Title(参考訳): 大規模言語モデルではイベント信号のグラフ化は可能か? 純粋なゼロショットイベントベース認識の探索
- Authors: Zongyou Yu, Qiang Qu, Xiaoming Chen, Chen Wang,
- Abstract要約: この研究は、イベントベースの視覚コンテンツのための大規模言語モデルの理解能力を研究する最初の研究である。
LLMは、CLIPと協調して追加のトレーニングや微調整を行うことなく、イベントベースのオブジェクト認識を実現することができることを示す。
具体的には、GPT-4o/4および他の2つのオープンソースLCMが、イベントベースの視覚コンテンツを直接認識する能力を評価する。
- 参考スコア(独自算出の注目度): 11.581367800115606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in event-based zero-shot object recognition have demonstrated promising results. However, these methods heavily depend on extensive training and are inherently constrained by the characteristics of CLIP. To the best of our knowledge, this research is the first study to explore the understanding capabilities of large language models (LLMs) for event-based visual content. We demonstrate that LLMs can achieve event-based object recognition without additional training or fine-tuning in conjunction with CLIP, effectively enabling pure zero-shot event-based recognition. Particularly, we evaluate the ability of GPT-4o / 4turbo and two other open-source LLMs to directly recognize event-based visual content. Extensive experiments are conducted across three benchmark datasets, systematically assessing the recognition accuracy of these models. The results show that LLMs, especially when enhanced with well-designed prompts, significantly improve event-based zero-shot recognition performance. Notably, GPT-4o outperforms the compared models and exceeds the recognition accuracy of state-of-the-art event-based zero-shot methods on N-ImageNet by five orders of magnitude. The implementation of this paper is available at \url{https://github.com/ChrisYu-Zz/Pure-event-based-recognition-based-LLM}.
- Abstract(参考訳): イベントベースゼロショット物体認識の最近の進歩は有望な結果を示している。
しかし、これらの手法は広範囲な訓練に大きく依存しており、CLIPの特徴によって本質的に制約されている。
我々の知る限り、この研究は、イベントベースの視覚コンテンツのための大規模言語モデル(LLM)の理解能力を研究する最初の研究である。
LLMは、CLIPと組み合わせて、追加のトレーニングや微調整をすることなく、イベントベースのオブジェクト認識を実現できることを実証し、純粋なゼロショットイベントベースの認識を効果的に実現する。
特に,GPT-4o/4turbo と他の2つのオープンソース LLM がイベントベースの視覚コンテンツを直接認識する能力を評価する。
これらのモデルの認識精度を体系的に評価し,3つのベンチマークデータセットに対して大規模な実験を行う。
その結果,特にプロンプトがよく設計された場合のLLMは,イベントベースゼロショット認識性能を著しく向上することがわかった。
特に、GPT-4oは比較モデルより優れ、N-ImageNet上の最先端のイベントベースゼロショット法の認識精度を5桁上回る。
本論文の実装は \url{https://github.com/ChrisYu-Zz/Pure-event-based-recognition-based-LLM} で見ることができる。
関連論文リスト
- CLLMFS: A Contrastive Learning enhanced Large Language Model Framework for Few-Shot Named Entity Recognition [3.695767900907561]
CLLMFSは、Few-Shot Named Entity RecognitionのためのContrastive LearningEnhanced Large Language Modelフレームワークである。
Low-Rank Adaptation (LoRA)と、数発のNER用に特別に調整された対照的な学習メカニズムを統合している。
提案手法は,F1スコアの現行性能を2.58%から97.74%まで向上させた。
論文 参考訳(メタデータ) (2024-08-23T04:44:05Z) - Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning [99.05401042153214]
In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。
ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。
そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T06:37:47Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - EventCLIP: Adapting CLIP for Event-based Object Recognition [26.35633454924899]
EventCLIPは、ゼロショットと少数ショットのイベントベースのオブジェクト認識にCLIPを使用する新しいアプローチである。
まず、生イベントを2次元グリッドベース表現に変換することで、CLIPのイメージエンコーダをイベントデータに一般化する。
N-Caltech、N-Cars、N-ImageNetのデータセット上でEventCLIPを評価し、最先端のショットパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-06-10T06:05:35Z) - Face Recognition in the age of CLIP & Billion image datasets [0.0]
種々のCLIPモデルの性能をゼロショット顔認識器として評価する。
また,データ中毒に対するCLIPモデルの堅牢性についても検討した。
論文 参考訳(メタデータ) (2023-01-18T05:34:57Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。