論文の概要: OSPC: Artificial VLM Features for Hateful Meme Detection
- arxiv url: http://arxiv.org/abs/2407.12836v1
- Date: Wed, 3 Jul 2024 21:35:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:37:51.465183
- Title: OSPC: Artificial VLM Features for Hateful Meme Detection
- Title(参考訳): OSPC: 有害なミーム検出のための人工VLM機能
- Authors: Peter Grönquist,
- Abstract要約: 本稿では,AI Singapore Online Safety Prize Challenge において,チーム 'Baseline' によって開発されたソリューションを紹介する。
計算効率と特徴工学に重点を置き、AUROCは0.76、精度は0.69に達した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The digital revolution and the advent of the world wide web have transformed human communication, notably through the emergence of memes. While memes are a popular and straightforward form of expression, they can also be used to spread misinformation and hate due to their anonymity and ease of use. In response to these challenges, this paper introduces a solution developed by team 'Baseline' for the AI Singapore Online Safety Prize Challenge. Focusing on computational efficiency and feature engineering, the solution achieved an AUROC of 0.76 and an accuracy of 0.69 on the test dataset. As key features, the solution leverages the inherent probabilistic capabilities of large Vision-Language Models (VLMs) to generate task-adapted feature encodings from text, and applies a distilled quantization tailored to the specific cultural nuances present in Singapore. This type of processing and fine-tuning can be adapted to various visual and textual understanding and classification tasks, and even applied on private VLMs such as OpenAI's GPT. Finally it can eliminate the need for extensive model training on large GPUs for resource constrained applications, also offering a solution when little or no data is available.
- Abstract(参考訳): デジタル革命とワールドワイドウェブの出現は、特にミームの出現によって人間のコミュニケーションに変化をもたらした。
ミームは人気があり素直な表現であるが、匿名性や使いやすさから誤報や憎悪を広めるためにも用いられる。
これらの課題に対応するために,本論文では,AIシンガポールオンライン安全賞の「ベースライン」チームが開発したソリューションを紹介する。
計算効率と特徴工学に重点を置き、AUROCは0.76、精度は0.69に達した。
重要な特徴として、このソリューションは、大きな視覚言語モデル(VLM)の固有の確率的能力を活用して、テキストからタスク適応型特徴符号化を生成し、シンガポールにある特定の文化的ニュアンスに合わせた蒸留量化を適用する。
この種の処理や微調整は様々な視覚的・テキスト的理解や分類タスクに適応することができ、OpenAIのGPTのようなプライベートなVLMにも適用できる。
最後に、リソース制約のあるアプリケーションのための大規模なGPU上での広範なモデルトレーニングの必要性を排除し、データがほとんど、あるいは全く利用できない場合にソリューションを提供する。
関連論文リスト
- Intelligent Mobile AI-Generated Content Services via Interactive Prompt Engineering and Dynamic Service Provisioning [55.641299901038316]
AI生成コンテンツは、ネットワークエッジで協調的なMobile AIGC Service Providers(MASP)を編成して、リソース制約のあるユーザにユビキタスでカスタマイズされたコンテンツを提供することができる。
このようなパラダイムは2つの大きな課題に直面している: 1) 生のプロンプトは、ユーザーが特定のAIGCモデルで経験していないために、しばしば生成品質が低下する。
本研究では,Large Language Model (LLM) を利用してカスタマイズしたプロンプトコーパスを生成する対話型プロンプトエンジニアリング機構を開発し,政策模倣に逆強化学習(IRL)を用いる。
論文 参考訳(メタデータ) (2025-02-17T03:05:20Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - A Unified Debiasing Approach for Vision-Language Models across Modalities and Tasks [12.313257689227013]
本稿では,機能プルーニングと低信頼プルーテーションを統合した新しい手法であるSelective Feature Imputation for Debiasing(SFID)を紹介する。
SFIDは多用途であり、出力のセマンティックな整合性を維持し、再訓練の必要性をなくすことで費用対効果を発揮できる。
実験の結果,ゼロショット分類,テキスト・ツー・イメージ検索,画像キャプション,テキスト・ツー・イメージ生成など,様々なVLMタスクにおけるSFIDの有効性が示された。
論文 参考訳(メタデータ) (2024-10-10T03:57:48Z) - AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation [65.01527698201956]
非自己回帰変換器(NAT)は、少数のステップで良好な品質の画像を合成することができる。
そこで我々はAdaNATを提案する。AdaNATは、生成されたサンプルごとに適切なポリシーを自動的に設定する学習可能なアプローチである。
論文 参考訳(メタデータ) (2024-08-31T03:53:57Z) - Empowering Federated Learning for Massive Models with NVIDIA FLARE [15.732926323081077]
データを効果的に扱い 活用することが 重要な課題となりました
ほとんどの最先端の機械学習アルゴリズムはデータ中心である。
本稿では,NVIDIA FLAREによって実現されたフェデレーション学習が,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2024-02-12T16:59:05Z) - HuntGPT: Integrating Machine Learning-Based Anomaly Detection and Explainable AI with Large Language Models (LLMs) [0.09208007322096533]
我々はランダムフォレスト分類器を応用した特殊な侵入検知ダッシュボードであるHuntGPTを提案する。
この論文は、Certified Information Security Manager (CISM) Practice Examsを通じて評価された、システムのアーキテクチャ、コンポーネント、技術的正確性について論じている。
その結果、LLMによってサポートされ、XAIと統合された会話エージェントは、侵入検出において堅牢で説明可能な、実行可能なAIソリューションを提供することを示した。
論文 参考訳(メタデータ) (2023-09-27T20:58:13Z) - Exploring External Knowledge for Accurate modeling of Visual and
Language Problems [2.7190267444272056]
この論文は、多くの困難なタスクを含む視覚的および言語的理解に焦点を当てている。
これらの問題を解決する最先端の手法は通常、ソースデータとターゲットラベルの2つの部分のみを含む。
まず外部知識を抽出し,元のモデルと統合する手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T02:01:50Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - Feeling of Presence Maximization: mmWave-Enabled Virtual Reality Meets
Deep Reinforcement Learning [76.46530937296066]
本稿では,無線モバイルユーザに対して,超信頼性でエネルギー効率のよいバーチャルリアリティ(VR)体験を提供するという課題について検討する。
モバイルユーザへの信頼性の高い超高精細ビデオフレーム配信を実現するために,コーディネートマルチポイント(CoMP)伝送技術とミリ波(mmWave)通信を利用する。
論文 参考訳(メタデータ) (2021-06-03T08:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。