Fugu-MT 論文翻訳(概要): OSPC: Artificial VLM Features for Hateful Meme Detection

論文の概要: OSPC: Artificial VLM Features for Hateful Meme Detection

arxiv url: http://arxiv.org/abs/2407.12836v1
Date: Wed, 3 Jul 2024 21:35:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 08:37:51.465183
Title: OSPC: Artificial VLM Features for Hateful Meme Detection
Title（参考訳）: OSPC: 有害なミーム検出のための人工VLM機能
Authors: Peter Grönquist,
Abstract要約: 本稿では,AI Singapore Online Safety Prize Challenge において,チーム 'Baseline' によって開発されたソリューションを紹介する。計算効率と特徴工学に重点を置き、AUROCは0.76、精度は0.69に達した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The digital revolution and the advent of the world wide web have transformed human communication, notably through the emergence of memes. While memes are a popular and straightforward form of expression, they can also be used to spread misinformation and hate due to their anonymity and ease of use. In response to these challenges, this paper introduces a solution developed by team 'Baseline' for the AI Singapore Online Safety Prize Challenge. Focusing on computational efficiency and feature engineering, the solution achieved an AUROC of 0.76 and an accuracy of 0.69 on the test dataset. As key features, the solution leverages the inherent probabilistic capabilities of large Vision-Language Models (VLMs) to generate task-adapted feature encodings from text, and applies a distilled quantization tailored to the specific cultural nuances present in Singapore. This type of processing and fine-tuning can be adapted to various visual and textual understanding and classification tasks, and even applied on private VLMs such as OpenAI's GPT. Finally it can eliminate the need for extensive model training on large GPUs for resource constrained applications, also offering a solution when little or no data is available.
Abstract（参考訳）: デジタル革命とワールドワイドウェブの出現は、特にミームの出現によって人間のコミュニケーションに変化をもたらした。ミームは人気があり素直な表現であるが、匿名性や使いやすさから誤報や憎悪を広めるためにも用いられる。これらの課題に対応するために,本論文では,AIシンガポールオンライン安全賞の「ベースライン」チームが開発したソリューションを紹介する。計算効率と特徴工学に重点を置き、AUROCは0.76、精度は0.69に達した。重要な特徴として、このソリューションは、大きな視覚言語モデル(VLM)の固有の確率的能力を活用して、テキストからタスク適応型特徴符号化を生成し、シンガポールにある特定の文化的ニュアンスに合わせた蒸留量化を適用する。この種の処理や微調整は様々な視覚的・テキスト的理解や分類タスクに適応することができ、OpenAIのGPTのようなプライベートなVLMにも適用できる。最後に、リソース制約のあるアプリケーションのための大規模なGPU上での広範なモデルトレーニングの必要性を排除し、データがほとんど、あるいは全く利用できない場合にソリューションを提供する。

関連論文リスト

Robust and Real-Time Bangladeshi Currency Recognition: A Dual-Stream MobileNet and EfficientNet Approach [2.3053825622580133]
バングラデシュの新しい紙幣データセットを構築し、制御されたシナリオと実際のシナリオの両方を含む。我々は、様々な複雑さをカバーし、モデルの一般化を改善するために、公開ベンチマークを含む4つの追加データセットを組み込んだ。提案したモデルは、制御されたデータセットで97.95%の精度、複雑なバックグラウンドで92.84%、すべてのデータセットを組み合わせれば94.98%の精度が得られる。
論文参考訳（メタデータ） (2026-01-31T17:37:16Z)
yProv4ML: Effortless Provenance Tracking for Machine Learning Systems [0.0]
大規模言語モデル(LLM)への関心の急速な高まりは、開発が追求される透明性と厳密さの欠如を浮き彫りにした。本稿では,PROV-JSONフォーマットで機械学習プロセス中に生成した出典情報をキャプチャするフレームワークであるyProv4MLを提案する。
論文参考訳（メタデータ） (2025-07-01T14:59:52Z)
Intelligent Mobile AI-Generated Content Services via Interactive Prompt Engineering and Dynamic Service Provisioning [55.641299901038316]
AI生成コンテンツは、ネットワークエッジで協調的なMobile AIGC Service Providers(MASP)を編成して、リソース制約のあるユーザにユビキタスでカスタマイズされたコンテンツを提供することができる。このようなパラダイムは2つの大きな課題に直面している: 1) 生のプロンプトは、ユーザーが特定のAIGCモデルで経験していないために、しばしば生成品質が低下する。本研究では,Large Language Model (LLM) を利用してカスタマイズしたプロンプトコーパスを生成する対話型プロンプトエンジニアリング機構を開発し,政策模倣に逆強化学習(IRL)を用いる。
論文参考訳（メタデータ） (2025-02-17T03:05:20Z)
Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文参考訳（メタデータ） (2025-01-16T16:19:53Z)
Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL) Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文参考訳（メタデータ） (2024-12-13T18:40:10Z)
DLBacktrace: A Model Agnostic Explainability for any Deep Learning Models [1.747623282473278]
ディープラーニングモデルは、意思決定プロセスにおける透明性が制限された不透明な'ブラックボックス'として機能する。この研究は、AIシステムにおける解釈可能性の押し付けの必要性に対処し、信頼の育成、説明責任の確保、ミッションクリティカルな分野における責任あるデプロイメントの促進におけるその役割を強調した。 DLBacktraceは、AryaXAIチームが開発し、幅広い領域にわたるモデル決定を照らす革新的なテクニックです。
論文参考訳（メタデータ） (2024-11-19T16:54:30Z)
A Unified Debiasing Approach for Vision-Language Models across Modalities and Tasks [12.313257689227013]
本稿では,機能プルーニングと低信頼プルーテーションを統合した新しい手法であるSelective Feature Imputation for Debiasing(SFID)を紹介する。 SFIDは多用途であり、出力のセマンティックな整合性を維持し、再訓練の必要性をなくすことで費用対効果を発揮できる。実験の結果,ゼロショット分類,テキスト・ツー・イメージ検索,画像キャプション,テキスト・ツー・イメージ生成など,様々なVLMタスクにおけるSFIDの有効性が示された。
論文参考訳（メタデータ） (2024-10-10T03:57:48Z)
AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation [65.01527698201956]
非自己回帰変換器(NAT)は、少数のステップで良好な品質の画像を合成することができる。そこで我々はAdaNATを提案する。AdaNATは、生成されたサンプルごとに適切なポリシーを自動的に設定する学習可能なアプローチである。
論文参考訳（メタデータ） (2024-08-31T03:53:57Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Empowering Federated Learning for Massive Models with NVIDIA FLARE [15.732926323081077]
データを効果的に扱い活用することが重要な課題となりましたほとんどの最先端の機械学習アルゴリズムはデータ中心である。本稿では,NVIDIA FLAREによって実現されたフェデレーション学習が,これらの課題にどのように対処できるかを検討する。
論文参考訳（メタデータ） (2024-02-12T16:59:05Z)
HuntGPT: Integrating Machine Learning-Based Anomaly Detection and Explainable AI with Large Language Models (LLMs) [0.09208007322096533]
我々はランダムフォレスト分類器を応用した特殊な侵入検知ダッシュボードであるHuntGPTを提案する。この論文は、Certified Information Security Manager (CISM) Practice Examsを通じて評価された、システムのアーキテクチャ、コンポーネント、技術的正確性について論じている。その結果、LLMによってサポートされ、XAIと統合された会話エージェントは、侵入検出において堅牢で説明可能な、実行可能なAIソリューションを提供することを示した。
論文参考訳（メタデータ） (2023-09-27T20:58:13Z)
Guiding AI-Generated Digital Content with Wireless Perception [69.51950037942518]
本稿では,AIGC(AIGC)と無線認識を統合し,デジタルコンテンツ制作の質を向上させる。このフレームワークは、単語の正確な記述が難しいユーザの姿勢を読み取るために、新しいマルチスケール認識技術を採用し、それをスケルトン画像としてAIGCモデルに送信する。生産プロセスはAIGCモデルの制約としてユーザの姿勢を強制するため、生成されたコンテンツはユーザの要求に適合する。
論文参考訳（メタデータ） (2023-03-26T04:39:03Z)
Exploring External Knowledge for Accurate modeling of Visual and Language Problems [2.7190267444272056]
この論文は、多くの困難なタスクを含む視覚的および言語的理解に焦点を当てている。これらの問題を解決する最先端の手法は通常、ソースデータとターゲットラベルの2つの部分のみを含む。まず外部知識を抽出し,元のモデルと統合する手法を開発した。
論文参考訳（メタデータ） (2023-01-27T02:01:50Z)
Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。データの継続的な削除とモデル再訓練のステップはスケールしませんこの課題に対処するために、textitMachine Unlearningを提案する。
論文参考訳（メタデータ） (2022-12-19T16:06:45Z)
Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文参考訳（メタデータ） (2021-11-02T15:48:28Z)
Feeling of Presence Maximization: mmWave-Enabled Virtual Reality Meets Deep Reinforcement Learning [76.46530937296066]
本稿では,無線モバイルユーザに対して,超信頼性でエネルギー効率のよいバーチャルリアリティ(VR)体験を提供するという課題について検討する。モバイルユーザへの信頼性の高い超高精細ビデオフレーム配信を実現するために,コーディネートマルチポイント(CoMP)伝送技術とミリ波(mmWave)通信を利用する。
論文参考訳（メタデータ） (2021-06-03T08:35:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。