論文の概要: LLM-EvRep: Learning an LLM-Compatible Event Representation Using a Self-Supervised Framework
- arxiv url: http://arxiv.org/abs/2502.14273v1
- Date: Thu, 20 Feb 2025 05:18:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:42.758203
- Title: LLM-EvRep: Learning an LLM-Compatible Event Representation Using a Self-Supervised Framework
- Title(参考訳): LLM-EvRep:自己監視フレームワークを用いたLLM互換イベント表現の学習
- Authors: Zongyou Yu, Qiang Qu, Qian Zhang, Nan Zhang, Xiaoming Chen,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域にまたがる顕著なゼロショット機能を示した。
textbfLLM-EvRep のイベント表現を生成するイベント表現生成器 textbfLLM-EvGen を提案する。
N-ImageNet、N-Caltech101、N-MNISTの3つのデータセットで総合実験を行った。
- 参考スコア(独自算出の注目度): 11.30784253260618
- License:
- Abstract: Recent advancements in event-based recognition have demonstrated significant promise, yet most existing approaches rely on extensive training, limiting their adaptability for efficient processing of event-driven visual content. Meanwhile, large language models (LLMs) have exhibited remarkable zero-shot capabilities across diverse domains, but their application to event-based visual recognition remains largely unexplored. To bridge this gap, we propose \textbf{LLM-EvGen}, an event representation generator that produces LLM-compatible event representations \textbf{LLM-EvRep}, thereby enhancing the performance of LLMs on event recognition tasks. The generator is trained using a self-supervised framework, aligning the generated representations with semantic consistency and structural fidelity. Comprehensive experiments were conducted on three datasets: N-ImageNet, N-Caltech101, and N-MNIST. The results demonstrate that our method, \textbf{LLM-EvRep}, outperforms the event-to-video method, E2VID, by 15.93\%, 0.82\%, and 50.21\%, respectively, in recognition tasks when evaluated using GPT-4o.
- Abstract(参考訳): イベントベース認識の最近の進歩は大きな可能性を示しているが、既存のほとんどのアプローチは広範なトレーニングに依存しており、イベント駆動型ビジュアルコンテンツの効率的な処理に対する適応性を制限する。
一方、大規模言語モデル (LLM) は、様々な領域で顕著なゼロショット機能を示してきたが、イベントベースの視覚認識への応用は、いまだに探索されていない。
このギャップを埋めるため, LLM互換のイベント表現を生成するイベント表現生成器である \textbf{LLM-EvGen} を提案する。
ジェネレータは自己教師付きフレームワークを使用してトレーニングされ、生成された表現を意味的一貫性と構造的忠実さに整合させる。
N-ImageNet、N-Caltech101、N-MNISTの3つのデータセットで総合実験を行った。
その結果, GPT-4o を用いて評価した場合の認識タスクにおいて, イベント・ツー・ビデオ方式である E2VID を 15.93 %, 0.82 %, 50.21 % で上回った。
関連論文リスト
- Can Large Language Models Grasp Event Signals? Exploring Pure Zero-Shot Event-based Recognition [11.581367800115606]
この研究は、イベントベースの視覚コンテンツのための大規模言語モデルの理解能力を研究する最初の研究である。
LLMは、CLIPと協調して追加のトレーニングや微調整を行うことなく、イベントベースのオブジェクト認識を実現することができることを示す。
具体的には、GPT-4o/4および他の2つのオープンソースLCMが、イベントベースの視覚コンテンツを直接認識する能力を評価する。
論文 参考訳(メタデータ) (2024-09-15T06:43:03Z) - CLLMFS: A Contrastive Learning enhanced Large Language Model Framework for Few-Shot Named Entity Recognition [3.695767900907561]
CLLMFSは、Few-Shot Named Entity RecognitionのためのContrastive LearningEnhanced Large Language Modelフレームワークである。
Low-Rank Adaptation (LoRA)と、数発のNER用に特別に調整された対照的な学習メカニズムを統合している。
提案手法は,F1スコアの現行性能を2.58%から97.74%まで向上させた。
論文 参考訳(メタデータ) (2024-08-23T04:44:05Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling [89.07386210297373]
GenEARLは、イベントタスク記述を理解するために近代的な生成モデルの力を利用する、トレーニング不要な生成フレームワークである。
GenEARLは、M2E2データセットとSwiGデータセット上のゼロショットEARLに対して、CLIPベースラインを9.4%、精度14.2%で上回っている。
論文 参考訳(メタデータ) (2024-04-07T00:28:13Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Global and Local Semantic Completion Learning for Vision-Language
Pre-training [34.740507502215536]
クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。
グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
論文 参考訳(メタデータ) (2023-06-12T13:20:29Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Contextualized Spatio-Temporal Contrastive Learning with
Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。
まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。
次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文 参考訳(メタデータ) (2021-12-09T19:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。