論文の概要: Multimodal Chain-of-Thought Reasoning via ChatGPT to Protect Children from Age-Inappropriate Apps
- arxiv url: http://arxiv.org/abs/2407.06309v1
- Date: Mon, 8 Jul 2024 18:20:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 22:13:05.965323
- Title: Multimodal Chain-of-Thought Reasoning via ChatGPT to Protect Children from Age-Inappropriate Apps
- Title(参考訳): 年齢不適切なアプリから子どもを守るためのチャットGPTによるマルチモーダル・チェーン・オブ・ソート推論
- Authors: Chuanbo Hu, Bin Liu, Minglei Yin, Yilu Zhou, Xin Li,
- Abstract要約: 成熟度評価は、保護者がアプリの成熟度レベルを評価するための、迅速かつ効果的な方法を提供する。
成熟度評価に対するテキストマイニングベースのアプローチは少ない。
マルチモーダルな大規模言語モデルを利用するアプリケーション成熟度を決定するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.48782824226389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile applications (Apps) could expose children to inappropriate themes such as sexual content, violence, and drug use. Maturity rating offers a quick and effective method for potential users, particularly guardians, to assess the maturity levels of apps. Determining accurate maturity ratings for mobile apps is essential to protect children's health in today's saturated digital marketplace. Existing approaches to maturity rating are either inaccurate (e.g., self-reported rating by developers) or costly (e.g., manual examination). In the literature, there are few text-mining-based approaches to maturity rating. However, each app typically involves multiple modalities, namely app description in the text, and screenshots in the image. In this paper, we present a framework for determining app maturity levels that utilize multimodal large language models (MLLMs), specifically ChatGPT-4 Vision. Powered by Chain-of-Thought (CoT) reasoning, our framework systematically leverages ChatGPT-4 to process multimodal app data (i.e., textual descriptions and screenshots) and guide the MLLM model through a step-by-step reasoning pathway from initial content analysis to final maturity rating determination. As a result, through explicitly incorporating CoT reasoning, our framework enables ChatGPT to understand better and apply maturity policies to facilitate maturity rating. Experimental results indicate that the proposed method outperforms all baseline models and other fusion strategies.
- Abstract(参考訳): モバイルアプリケーション(アプリ)は、子供に性的内容、暴力、薬物使用などの不適切なテーマを暴露する可能性がある。
成熟度評価は、潜在的なユーザ、特に保護者に対して、アプリの成熟度レベルを評価するための、迅速かつ効果的な方法を提供する。
モバイルアプリの正確な成熟度評価を決定することは、今日の飽和デジタルマーケットプレースにおける子供の健康を守るために不可欠である。
既存の成熟度評価へのアプローチは、不正確な(開発者による自己報告型評価など)か、高価な(手作業による検査など)かのいずれかです。
文献では、成熟度評価に対するテキストマイニングに基づくアプローチはほとんどない。
しかし、通常、各アプリには複数のモダリティ、すなわちテキスト内のアプリ記述、イメージ内のスクリーンショットが含まれる。
本稿では,マルチモーダル大言語モデル(MLLM),特にChatGPT-4 Visionを利用するアプリケーションの成熟度を決定するためのフレームワークを提案する。
CoT(Chain-of-Thought)推論によって,我々のフレームワークはChatGPT-4を体系的に利用してマルチモーダルアプリケーションデータ(テキスト記述やスクリーンショットなど)を処理し,MLLMモデルを初期コンテンツ分析から最終成熟度評価まで段階的に推論する経路を通じてガイドする。
その結果、我々のフレームワークはCoT推論を明示的に取り入れることで、ChatGPTをよりよく理解し、成熟度評価を促進するために成熟度ポリシーを適用します。
実験結果から,提案手法はすべてのベースラインモデルおよび他の融合戦略より優れていることが示された。
関連論文リスト
- SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - CILF-CIAE: CLIP-driven Image-Language Fusion for Correcting Inverse Age Estimation [14.158939954453933]
年齢推定タスクは、画像中の顔の特徴を分析して、個人の年齢を予測することを目的としている。
既存のCLIPベースの年齢推定手法では、高いメモリ使用量が必要であり、エラーフィードバック機構が欠如している。
逆年齢推定(CILF-CIAE)のための新しいCLIP駆動画像言語融合法を提案する。
論文 参考訳(メタデータ) (2023-12-04T09:35:36Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - FLIRT: Feedback Loop In-context Red Teaming [71.38594755628581]
我々は、与えられたモデルを評価し、その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation [5.043563227694139]
大規模な言語モデル(より大きなLM)は、幻覚的内容を含むテキストを生成できる。
各種の命令調整型LMの自己コントラクションに関する包括的調査を行う。
本稿では,自己矛盾を効果的に検出・緩和する新しいプロンプトベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T08:43:46Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Extending Text Informativeness Measures to Passage Interestingness
Evaluation (Language Model vs. Word Embedding) [1.2998637003026272]
本稿では、インフォマティヴネスの概念をインフォマティヴネスの一般化として定義する。
次に、この一般化に対応するために、アートインフォーマティヴネス対策の状態を調査する。
CLEF-INEX Tweet Contextualization 2012 Logarithm similarity measure が最適であることを示す。
論文 参考訳(メタデータ) (2020-04-14T18:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。