論文の概要: OSPC: Artificial VLM Features for Hateful Meme Detection
- arxiv url: http://arxiv.org/abs/2407.12836v1
- Date: Wed, 3 Jul 2024 21:35:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:37:51.465183
- Title: OSPC: Artificial VLM Features for Hateful Meme Detection
- Title(参考訳): OSPC: 有害なミーム検出のための人工VLM機能
- Authors: Peter Grönquist,
- Abstract要約: 本稿では,AI Singapore Online Safety Prize Challenge において,チーム 'Baseline' によって開発されたソリューションを紹介する。
計算効率と特徴工学に重点を置き、AUROCは0.76、精度は0.69に達した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The digital revolution and the advent of the world wide web have transformed human communication, notably through the emergence of memes. While memes are a popular and straightforward form of expression, they can also be used to spread misinformation and hate due to their anonymity and ease of use. In response to these challenges, this paper introduces a solution developed by team 'Baseline' for the AI Singapore Online Safety Prize Challenge. Focusing on computational efficiency and feature engineering, the solution achieved an AUROC of 0.76 and an accuracy of 0.69 on the test dataset. As key features, the solution leverages the inherent probabilistic capabilities of large Vision-Language Models (VLMs) to generate task-adapted feature encodings from text, and applies a distilled quantization tailored to the specific cultural nuances present in Singapore. This type of processing and fine-tuning can be adapted to various visual and textual understanding and classification tasks, and even applied on private VLMs such as OpenAI's GPT. Finally it can eliminate the need for extensive model training on large GPUs for resource constrained applications, also offering a solution when little or no data is available.
- Abstract(参考訳): デジタル革命とワールドワイドウェブの出現は、特にミームの出現によって人間のコミュニケーションに変化をもたらした。
ミームは人気があり素直な表現であるが、匿名性や使いやすさから誤報や憎悪を広めるためにも用いられる。
これらの課題に対応するために,本論文では,AIシンガポールオンライン安全賞の「ベースライン」チームが開発したソリューションを紹介する。
計算効率と特徴工学に重点を置き、AUROCは0.76、精度は0.69に達した。
重要な特徴として、このソリューションは、大きな視覚言語モデル(VLM)の固有の確率的能力を活用して、テキストからタスク適応型特徴符号化を生成し、シンガポールにある特定の文化的ニュアンスに合わせた蒸留量化を適用する。
この種の処理や微調整は様々な視覚的・テキスト的理解や分類タスクに適応することができ、OpenAIのGPTのようなプライベートなVLMにも適用できる。
最後に、リソース制約のあるアプリケーションのための大規模なGPU上での広範なモデルトレーニングの必要性を排除し、データがほとんど、あるいは全く利用できない場合にソリューションを提供する。
関連論文リスト
- DLBacktrace: A Model Agnostic Explainability for any Deep Learning Models [1.747623282473278]
ディープラーニングモデルは、意思決定プロセスにおける透明性が制限された不透明な'ブラックボックス'として機能する。
この研究は、AIシステムにおける解釈可能性の押し付けの必要性に対処し、信頼の育成、説明責任の確保、ミッションクリティカルな分野における責任あるデプロイメントの促進におけるその役割を強調した。
DLBacktraceは、AryaXAIチームが開発し、幅広い領域にわたるモデル決定を照らす革新的なテクニックです。
論文 参考訳(メタデータ) (2024-11-19T16:54:30Z) - AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation [65.01527698201956]
非自己回帰変換器(NAT)は、少数のステップで良好な品質の画像を合成することができる。
そこで我々はAdaNATを提案する。AdaNATは、生成されたサンプルごとに適切なポリシーを自動的に設定する学習可能なアプローチである。
論文 参考訳(メタデータ) (2024-08-31T03:53:57Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Empowering Federated Learning for Massive Models with NVIDIA FLARE [15.732926323081077]
データを効果的に扱い 活用することが 重要な課題となりました
ほとんどの最先端の機械学習アルゴリズムはデータ中心である。
本稿では,NVIDIA FLAREによって実現されたフェデレーション学習が,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2024-02-12T16:59:05Z) - HuntGPT: Integrating Machine Learning-Based Anomaly Detection and Explainable AI with Large Language Models (LLMs) [0.09208007322096533]
我々はランダムフォレスト分類器を応用した特殊な侵入検知ダッシュボードであるHuntGPTを提案する。
この論文は、Certified Information Security Manager (CISM) Practice Examsを通じて評価された、システムのアーキテクチャ、コンポーネント、技術的正確性について論じている。
その結果、LLMによってサポートされ、XAIと統合された会話エージェントは、侵入検出において堅牢で説明可能な、実行可能なAIソリューションを提供することを示した。
論文 参考訳(メタデータ) (2023-09-27T20:58:13Z) - Guiding AI-Generated Digital Content with Wireless Perception [69.51950037942518]
本稿では,AIGC(AIGC)と無線認識を統合し,デジタルコンテンツ制作の質を向上させる。
このフレームワークは、単語の正確な記述が難しいユーザの姿勢を読み取るために、新しいマルチスケール認識技術を採用し、それをスケルトン画像としてAIGCモデルに送信する。
生産プロセスはAIGCモデルの制約としてユーザの姿勢を強制するため、生成されたコンテンツはユーザの要求に適合する。
論文 参考訳(メタデータ) (2023-03-26T04:39:03Z) - Exploring External Knowledge for Accurate modeling of Visual and
Language Problems [2.7190267444272056]
この論文は、多くの困難なタスクを含む視覚的および言語的理解に焦点を当てている。
これらの問題を解決する最先端の手法は通常、ソースデータとターゲットラベルの2つの部分のみを含む。
まず外部知識を抽出し,元のモデルと統合する手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T02:01:50Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Feeling of Presence Maximization: mmWave-Enabled Virtual Reality Meets
Deep Reinforcement Learning [76.46530937296066]
本稿では,無線モバイルユーザに対して,超信頼性でエネルギー効率のよいバーチャルリアリティ(VR)体験を提供するという課題について検討する。
モバイルユーザへの信頼性の高い超高精細ビデオフレーム配信を実現するために,コーディネートマルチポイント(CoMP)伝送技術とミリ波(mmWave)通信を利用する。
論文 参考訳(メタデータ) (2021-06-03T08:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。