論文の概要: Disturbing Image Detection Using LMM-Elicited Emotion Embeddings
- arxiv url: http://arxiv.org/abs/2406.12668v1
- Date: Tue, 18 Jun 2024 14:41:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 18:28:51.145047
- Title: Disturbing Image Detection Using LMM-Elicited Emotion Embeddings
- Title(参考訳): LMMを用いた感情埋め込みを用いたゆらぎ画像検出
- Authors: Maria Tzelepi, Vasileios Mezaris,
- Abstract要約: 大規模マルチモーダルモデル(LMM)に符号化された知識を生かしたDID(Disturbing Image Detection)の課題に対処する。
まず、ジェネリックセマンティックな記述を抽出し、次に、誘惑された感情を抽出してLMMの知識を活用することを提案する。
提案手法はベースライン分類精度を著しく向上させ, 改良されたディスチャビング画像検出データセットにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 11.801596051153725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we deal with the task of Disturbing Image Detection (DID), exploiting knowledge encoded in Large Multimodal Models (LMMs). Specifically, we propose to exploit LMM knowledge in a two-fold manner: first by extracting generic semantic descriptions, and second by extracting elicited emotions. Subsequently, we use the CLIP's text encoder in order to obtain the text embeddings of both the generic semantic descriptions and LMM-elicited emotions. Finally, we use the aforementioned text embeddings along with the corresponding CLIP's image embeddings for performing the DID task. The proposed method significantly improves the baseline classification accuracy, achieving state-of-the-art performance on the augmented Disturbing Image Detection dataset.
- Abstract(参考訳): 本稿では,LMM(Large Multimodal Models)に符号化された知識を活用するDID(Disturbing Image Detection)の課題に対処する。
具体的には、まず、ジェネリックセマンティックな記述を抽出し、次に、誘発された感情を抽出することによってLMMの知識を活用することを提案する。
次に、CLIPのテキストエンコーダを用いて、ジェネリックセマンティック記述とLMMによる感情の両方のテキスト埋め込みを得る。
最後に、上記のテキスト埋め込みと対応するCLIPのイメージ埋め込みを用いて、DIDタスクを実行する。
提案手法はベースライン分類精度を著しく向上させ, 改良されたディスチャビング画像検出データセットにおける最先端性能を実現する。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - LMM-Regularized CLIP Embeddings for Image Classification [11.801596051153725]
我々は,強力なCLIPビジョン言語モデルを用いた画像分類タスクに対処する。
本稿では,LMMに基づく正規化手法を提案する。
このようにして、識別能力を増強した埋め込みを生成する。
論文 参考訳(メタデータ) (2024-12-16T11:11:23Z) - EntityCLIP: Entity-Centric Image-Text Matching via Multimodal Attentive Contrastive Learning [38.30565103892611]
本稿では,textbfEntity中心の textbfImage-textbfText textbfMatching (EITM) 問題について検討する。
このタスクの課題は、主にエンティティ・アソシエーション・モデリングにおける大きなセマンティック・ギャップにある。
我々は,EITM問題に適応するマルチモーダル注意型コントラスト学習フレームワークを考案し,EntityCLIPというモデルを開発した。
論文 参考訳(メタデータ) (2024-10-23T12:12:56Z) - ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.12958154544838]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - AMNS: Attention-Weighted Selective Mask and Noise Label Suppression for Text-to-Image Person Retrieval [3.591122855617648]
ノイズ対応(NC)問題は画像品質の低下とラベルの誤りによる。
ランダムマスキングの強化は、必然的に重要なセマンティックコンテンツを捨てる可能性がある。
双方向類似分布マッチング(BSDM)損失は、正のペアから効果的に学習することを可能にする。
重み調整焦点(WAF)の損失により、モデルのハードサンプル処理能力が向上する。
論文 参考訳(メタデータ) (2024-09-10T10:08:01Z) - Exploiting LMM-based knowledge for image classification tasks [11.801596051153725]
画像のセマンティック記述の抽出にはMiniGPT-4モデルを用いる。
本稿では,MiniGPT-4の生成する意味記述に対応するテキスト埋め込みを得るために,テキストエンコーダを付加的に使用することを提案する。
3つのデータセットに対する実験的な評価は,LMMに基づく知識を活用した分類性能の向上を実証する。
論文 参考訳(メタデータ) (2024-06-05T08:56:24Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image
Super-Resolution [18.73348268987249]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文 参考訳(メタデータ) (2023-08-13T11:02:16Z) - SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen
LLMs [124.29233620842462]
画像やビデオなどの非言語的モダリティを含む理解タスクと生成タスクを,凍結したLLMで実現するためのSPAEを導入する。
結果として得られる語彙トークンは、意味的意味と視覚的再構成に必要な細部の両方をキャプチャする。
提案手法は,凍結したLCMが画像理解タスクの最先端性能を25%以上越えながら,画像コンテンツを生成できるようにする試みとして,初めて成功した試みである。
論文 参考訳(メタデータ) (2023-06-30T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。