論文の概要: An Enhanced Large Language Model For Cross Modal Query Understanding System Using DL-KeyBERT Based CAZSSCL-MPGPT
- arxiv url: http://arxiv.org/abs/2502.17000v1
- Date: Mon, 24 Feb 2025 09:31:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:56:44.624364
- Title: An Enhanced Large Language Model For Cross Modal Query Understanding System Using DL-KeyBERT Based CAZSSCL-MPGPT
- Title(参考訳): DL-KeyBERtベースのCAZSSCL-MPGPTを用いたクロスモーダル検索システムのための拡張型大規模言語モデル
- Authors: Shreya Singh,
- Abstract要約: LLM(Large Language Models)は、人間の言語を理解し、生成するために設計された高度なディープラーニングモデルである。
既存のアプローチはしばしばエコーチャンバー効果に悩まされ、冗長な視覚パターンはモデルの一般化と精度を低下させる。
本稿では,DL-KeyBERT ベースの CAZSSCL-MPGPT を用いたクロスモーダルクエリ理解のための拡張 LLM ベースのフレームワークを開発した。
- 参考スコア(独自算出の注目度): 0.5439020425819
- License:
- Abstract: Large Language Models (LLMs) are advanced deep-learning models designed to understand and generate human language. They work together with models that process data like images, enabling cross-modal understanding. However, existing approaches often suffer from the echo chamber effect, where redundant visual patterns reduce model generalization and accuracy. Thus, the proposed system considered this limitation and developed an enhanced LLM-based framework for cross-modal query understanding using DL-KeyBERT-based CAZSSCL-MPGPT. The collected dataset consists of pre-processed images and texts. The preprocessed images then undergo object segmentation using Easom-You Only Look Once (E-YOLO). The object skeleton is generated, along with the knowledge graph using a Conditional Random Knowledge Graph (CRKG) technique. Further, features are extracted from the knowledge graph, generated skeletons, and segmented objects. The optimal features are then selected using the Fossa Optimization Algorithm (FOA). Meanwhile, the text undergoes word embedding using DL-KeyBERT. Finally, the cross-modal query understanding system utilizes CAZSSCL-MPGPT to generate accurate and contextually relevant image descriptions as text. The proposed CAZSSCL-MPGPT achieved an accuracy of 99.14187362% in the COCO dataset 2017 and 98.43224393% in the vqav2-val dataset.
- Abstract(参考訳): LLM(Large Language Models)は、人間の言語を理解し、生成するために設計された高度なディープラーニングモデルである。
彼らは、画像のようなデータを処理するモデルと連携して、モーダル横断的な理解を可能にします。
しかし、既存のアプローチはしばしばエコーチャンバー効果に悩まされ、冗長な視覚パターンはモデルの一般化と精度を低下させる。
そこで提案システムは,この制限を考慮し,DL-KeyBERTベースのCAZSSCL-MPGPTを用いたクロスモーダルクエリ理解のための拡張LDMベースのフレームワークを開発した。
収集されたデータセットは、事前処理された画像とテキストで構成されている。
事前処理された画像は、Easom-You Only Look Once (E-YOLO)を使用してオブジェクトセグメンテーションを行う。
オブジェクトスケルトンは、条件ランダム知識グラフ(CRKG)技術を用いて知識グラフとともに生成される。
さらに、ナレッジグラフ、生成されたスケルトン、セグメント化されたオブジェクトから特徴を抽出する。
最適な機能はFossa Optimization Algorithm (FOA)を使って選択される。
一方、DL-KeyBERTを用いて単語埋め込みを行う。
最後に,CAZSSCL-MPGPTを用いて,高精度で文脈的に関係のある画像記述をテキストとして生成する。
提案されたCAZSSCL-MPGPTは、COCOデータセット2017では99.14187362%、vqav2valデータセットでは98.43224393%の精度を達成した。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification [19.29480118378639]
全スライド画像分類は、ギガピクセル画像サイズと限定アノテーションラベルによる課題を提示する。
本稿では,数ショットの病理分類に大規模な視覚言語モデルを適用するための素早い学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T09:42:13Z) - DiffCLIP: Few-shot Language-driven Multimodal Classifier [19.145645804307566]
DiffCLIPはContrastive Language-Image Pretrainingを拡張する新しいフレームワークである。
高次元マルチモーダルリモートセンシング画像の正確な分類のための包括的言語駆動意味情報を提供する。
DiffCLIPはCLIPと比較して3つのリモートセンシングデータセットで10.65%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-12-10T02:21:39Z) - SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - CPLIP: Zero-Shot Learning for Histopathology with Comprehensive Vision-Language Alignment [40.811510317145675]
CPLIPは、病理組織学における画像とテキストのアライメントを強化する新しい教師なし技術である。
複数の病理組織学的タスクで評価され、CPLIPはゼロショット学習シナリオにおいて顕著な改善を示した。
さらなる研究とレプリケーションを促進するため、CPLIPのコードはGitHubで入手できる。
論文 参考訳(メタデータ) (2024-06-07T18:39:58Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Exploring Simple Open-Vocabulary Semantic Segmentation [7.245983878396646]
オープン語彙セマンティックセグメンテーションモデルは、任意のオープン語彙テキストの集合から画像中の各ピクセルにセマンティックラベルを正確に割り当てることを目的としている。
本稿では,これらの要素に依存することなく驚くほど高い性能を実現する新モデルであるS-Segを紹介する。
論文 参考訳(メタデータ) (2024-01-22T18:59:29Z) - Weakly Supervised Annotations for Multi-modal Greeting Cards Dataset [8.397847537464534]
我々は,Greeting Cardsデータセットから抽象的な視覚概念を学ぶために,事前訓練された画像とテキスト埋め込みから特徴を集約することを提案する。
提案したデータセットは、事前訓練されたテキスト・ツー・イメージ生成モデルを用いて、挨拶カード画像を生成するのにも有用である。
論文 参考訳(メタデータ) (2022-12-01T20:07:52Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。