Fugu-MT 論文翻訳(概要): Prompt-enhanced Network for Hateful Meme Classification

論文の概要: Prompt-enhanced Network for Hateful Meme Classification

arxiv url: http://arxiv.org/abs/2411.07527v1
Date: Tue, 12 Nov 2024 03:55:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.781106
Title: Prompt-enhanced Network for Hateful Meme Classification
Title（参考訳）: 有害なミーム分類のためのプロンプト強化ネットワーク
Authors: Junxi Liu, Yanyan Feng, Jiehai Chen, Yun Xue, Fenghuan Li,
Abstract要約: ソーシャルメディアは、メディアプラットフォームに憎しみのあるミームが溢れている。我々は,Penを開発した。Penは,素早い学習アプローチに基づくネットワークフレームワークである。我々はPenが手動のプロンプト法を超越し,より優れた一般化と分類精度を示した。
参考スコア（独自算出の注目度）: 1.5079492323055144
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The dynamic expansion of social media has led to an inundation of hateful memes on media platforms, accentuating the growing need for efficient identification and removal. Acknowledging the constraints of conventional multimodal hateful meme classification, which heavily depends on external knowledge and poses the risk of including irrelevant or redundant content, we developed Pen -- a prompt-enhanced network framework based on the prompt learning approach. Specifically, after constructing the sequence through the prompt method and encoding it with a language model, we performed region information global extraction on the encoded sequence for multi-view perception. By capturing global information about inference instances and demonstrations, Pen facilitates category selection by fully leveraging sequence information. This approach significantly improves model classification accuracy. Additionally, to bolster the model's reasoning capabilities in the feature space, we introduced prompt-aware contrastive learning into the framework to improve the quality of sample feature distributions. Through extensive ablation experiments on two public datasets, we evaluate the effectiveness of the Pen framework, concurrently comparing it with state-of-the-art model baselines. Our research findings highlight that Pen surpasses manual prompt methods, showcasing superior generalization and classification accuracy in hateful meme classification tasks. Our code is available at https://github.com/juszzi/Pen.
Abstract（参考訳）: ソーシャルメディアのダイナミックな拡大は、メディアプラットフォームにヘイトフルミームが浸水し、効率的な識別と削除の必要性が高まっていることを強調している。外部知識に大きく依存する従来のマルチモーダル・ヘイトフル・ミーム分類の制約を認識し,無関係あるいは冗長なコンテンツを含むリスクを生じさせるPenを開発した。具体的には,シークエンスをプロンプト法で構築し,言語モデルで符号化した後,符号化されたシークエンスを用いて領域情報をグローバルに抽出し,多視点認識を行った。推論インスタンスとデモに関するグローバル情報をキャプチャすることで、Penはシーケンス情報を完全に活用してカテゴリ選択を容易にする。このアプローチはモデルの分類精度を大幅に改善する。さらに、機能領域におけるモデルの推論能力を強化するために、我々は、サンプルの特徴分布の品質を改善するために、フレームワークに即時対応のコントラスト学習を導入しました。 2つの公開データセットに対する大規模なアブレーション実験を通じて、Penフレームワークの有効性を評価し、最先端のモデルベースラインと並行して比較する。調査の結果,Penは手動のプロンプト法を超越し,憎しみのあるミーム分類タスクにおいて,優れた一般化と分類精度を示すことがわかった。私たちのコードはhttps://github.com/juszzi/Pen.comから入手可能です。

関連論文リスト

Federated Cross-Modal Style-Aware Prompt Generation [2.4472081831862655]
FedCSAPはコンテキスト対応のプロンプトトークンを生成する。私たちのフレームワークは、クライアント固有のスタイルインジケータとともに、CLIPのビジョンエンコーダの低、中、高レベルの機能を活用しています。
論文参考訳（メタデータ） (2025-08-17T15:23:45Z)
A Meaningful Perturbation Metric for Evaluating Explainability Methods [55.09730499143998]
本稿では,画像生成モデルを用いて標的摂動を行う新しい手法を提案する。具体的には,画像の忠実さを保ちながら,入力画像の高関連画素のみを塗布し,モデルの予測を変更することに焦点を当てる。これは、しばしばアウト・オブ・ディストリビューションの修正を生み出し、信頼できない結果をもたらす既存のアプローチとは対照的である。
論文参考訳（メタデータ） (2025-04-09T11:46:41Z)
Now you see me! A framework for obtaining class-relevant saliency maps [38.663697418404546]
ニューラルネットワークが特定の予測に使用する入力特徴を理解するために、サリエンシマップが開発された。広く使われているが、これらの手法は、分類のきっかけとなった特定の情報を特定するのに失敗した、過度に一般的な衛生マップをもたらすことが多い。我々は、クラス間の属性を組み込んで、実際にクラス関連情報をキャプチャする有給マップに到達できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-10T13:59:57Z)
CSTA: Spatial-Temporal Causal Adaptive Learning for Exemplar-Free Video Class-Incremental Learning [62.69917996026769]
クラスインクリメンタルな学習課題は、空間的外観と時間的行動の関与の両方を学習し、保存することを必要とする。本稿では,各クラス固有のインクリメンタル情報要件を調整し,新しいクラスパターンを学習するためのアダプタを分離するフレームワークを提案する。異なる種類の情報間のインクリメントと記憶の衝突を減らすために,因果補償機構を提案する。
論文参考訳（メタデータ） (2025-01-13T11:34:55Z)
VSFormer: Value and Shape-Aware Transformer with Prior-Enhanced Self-Attention for Multivariate Time Series Classification [47.92529531621406]
識別パターン(形状)と数値情報(値)の両方を組み込んだVSFormerを提案する。さらに、教師付き情報から派生したクラス固有の事前情報を抽出し、位置エンコーディングを強化する。 30のUEAアーカイブデータセットに対する大規模な実験は、SOTAモデルと比較して、我々の手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-12-21T07:31:22Z)
Granularity Matters in Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文参考訳（メタデータ） (2024-10-21T13:06:21Z)
Generative Multi-modal Models are Good Class-Incremental Learners [51.5648732517187]
クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。提案手法は適応生成モデルを用いて画像のラベルを直接生成する。 Few-shot CIL設定では、現在の最先端のすべてのメソッドに対して少なくとも14%精度が向上し、忘れてはならない。
論文参考訳（メタデータ） (2024-03-27T09:21:07Z)
Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文参考訳（メタデータ） (2023-08-22T04:24:45Z)
EAML: Ensemble Self-Attention-based Mutual Learning Network for Document Image Classification [1.1470070927586016]
我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-11T16:05:03Z)
Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文参考訳（メタデータ） (2023-03-23T12:28:25Z)
Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文参考訳（メタデータ） (2022-10-05T17:05:56Z)
Visualization Of Class Activation Maps To Explain AI Classification Of Network Packet Captures [0.0]
ネットワーク内のコネクションの数と新しいアプリケーションの追加は、大量のログデータを引き起こします。ディープラーニング手法は、特徴抽出と単一システムにおけるデータからの分類の両方を提供する。本稿では、ネットワークデータの分類と説明技法を組み合わせて、専門家、アルゴリズム、データ間のインターフェースを形成する視覚対話型ツールを提案する。
論文参考訳（メタデータ） (2022-09-05T16:34:43Z)
Fine-Grained Visual Classification using Self Assessment Classifier [12.596520707449027]
識別的特徴の抽出は、きめ細かい視覚的分類タスクにおいて重要な役割を担っている。本稿では,画像とトップkの予測クラスを同時に活用する自己評価手法を提案する。本手法は,CUB200-2011,Stanford Dog,FGVC Aircraft のデータセットに対して,最新の結果が得られることを示す。
論文参考訳（メタデータ） (2022-05-21T07:41:27Z)
Edge-Enhanced Global Disentangled Graph Neural Network for Sequential Recommendation [44.15486708923762]
本稿では,エッジ拡張グローバルディスタングルグラフニューラルネットワーク(EGD-GNN)モデルを提案する。グローバルレベルでは、アイテムの関係をモデル化するために、すべてのシーケンスにまたがるグローバルリンクグラフを構築します。ローカルレベルでは、変動型自動エンコーダフレームワークを適用して、現在のシーケンスに関するユーザの意図を学習する。
論文参考訳（メタデータ） (2021-11-20T08:15:20Z)
Improve the Interpretability of Attention: A Fast, Accurate, and Interpretable High-Resolution Attention Model [6.906621279967867]
そこで本稿では,タスク関連情報を取り込むための,非線形代表非パラメトリックアテンション(BR-NPA)戦略を提案する。提案したモデルは、分類が関与する様々な近代的な深層モデルに容易に適応できる。また、通常のニューラルアテンションモジュールよりも正確で高速で、メモリフットプリントも小さい。
論文参考訳（メタデータ） (2021-06-04T15:57:37Z)
Attention Model Enhanced Network for Classification of Breast Cancer Image [54.83246945407568]
AMENはマルチブランチ方式で、画素ワイドアテンションモデルとサブモジュールの分類で定式化される。微妙な詳細情報に焦点を合わせるため、サンプル画像は、前枝から生成された画素対応の注目マップによって強化される。 3つのベンチマークデータセットで行った実験は、様々なシナリオにおいて提案手法の優位性を実証している。
論文参考訳（メタデータ） (2020-10-07T08:44:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。