論文の概要: Aetheria: A multimodal interpretable content safety framework based on multi-agent debate and collaboration
- arxiv url: http://arxiv.org/abs/2512.02530v1
- Date: Tue, 02 Dec 2025 08:49:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.788759
- Title: Aetheria: A multimodal interpretable content safety framework based on multi-agent debate and collaboration
- Title(参考訳): Aetheria:マルチエージェントの議論とコラボレーションに基づくマルチモーダル解釈可能なコンテンツ安全性フレームワーク
- Authors: Yuxiang He, Jian Zhao, Yuchen Yuan, Tianle Zhang, Wei Cai, Haojie Cheng, Ziyan Shi, Ming Zhu, Haichuan Tang, Chi Zhang, Xuelong Li,
- Abstract要約: Aetheriaはマルチエージェントの議論とコラボレーションに基づくマルチモーダル解釈可能なコンテンツ安全性フレームワークである。
Aetheriaは詳細な、追跡可能な監査レポートを生成し、全体的なコンテンツの安全性の正確さにおいて、ベースラインよりも大きな利点を示している。
- 参考スコア(独自算出の注目度): 45.26893171909154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exponential growth of digital content presents significant challenges for content safety. Current moderation systems, often based on single models or fixed pipelines, exhibit limitations in identifying implicit risks and providing interpretable judgment processes. To address these issues, we propose Aetheria, a multimodal interpretable content safety framework based on multi-agent debate and collaboration.Employing a collaborative architecture of five core agents, Aetheria conducts in-depth analysis and adjudication of multimodal content through a dynamic, mutually persuasive debate mechanism, which is grounded by RAG-based knowledge retrieval.Comprehensive experiments on our proposed benchmark (AIR-Bench) validate that Aetheria not only generates detailed and traceable audit reports but also demonstrates significant advantages over baselines in overall content safety accuracy, especially in the identification of implicit risks. This framework establishes a transparent and interpretable paradigm, significantly advancing the field of trustworthy AI content moderation.
- Abstract(参考訳): デジタルコンテンツの指数的な成長は、コンテンツの安全性に重大な課題をもたらす。
現在のモデレーションシステムは、しばしば単一モデルや固定パイプラインに基づいており、暗黙のリスクを特定し、解釈可能な判断プロセスを提供する限界を示す。
これらの課題に対処するため,我々は,マルチエージェントの議論とコラボレーションに基づくマルチモーダル解釈可能なコンテンツ安全性フレームワークであるAetheriaを提案する。Aetheriaは5つのコアエージェントの協調アーキテクチャを用いて,RAGに基づく知識検索を基盤とした動的かつ相互に説得力のある議論機構を通じて,マルチモーダルコンテンツの詳細な分析と適応を行う。
このフレームワークは透明で解釈可能なパラダイムを確立し、信頼できるAIコンテンツモデレーションの分野を大幅に前進させる。
関連論文リスト
- ConceptGuard: Proactive Safety in Text-and-Image-to-Video Generation through Multimodal Risk Detection [27.47621607462884]
ConceptGuardは、マルチモーダルビデオ生成において、安全でないセマンティクスを積極的に検出し緩和するフレームワークである。
コントラスト検出モジュールは、融合画像テキスト入力を構造化概念空間に投影することにより、潜伏する安全リスクを特定する。
意味的抑制機構は、プロンプトのマルチモーダル条件を介在することにより、生成過程を安全でない概念から遠ざける。
論文 参考訳(メタデータ) (2025-11-24T05:27:05Z) - CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG [53.950029990391066]
マルチモーダルRAG(CoRe-MMRAG)のためのクロスソース知識textbfReconciliation
本稿では,知識ソース間の不整合を効果的に解決する新しいエンドツーエンドフレームワークを提案する。
KB-VQAベンチマークの実験では、CoRe-MMRAGはベースライン法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-06-03T07:32:40Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - Knowledge-Aware Iterative Retrieval for Multi-Agent Systems [0.0]
本稿では,新しい大規模言語モデル (LLM) によるエージェントフレームワークを提案する。
動的に進化する知識を活用することで、クエリを反復的に洗練し、文脈的証拠をフィルタリングする。
提案システムは、更新されたコンテキストの競合的および協調的な共有をサポートする。
論文 参考訳(メタデータ) (2025-03-17T15:27:02Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey [92.36487127683053]
Retrieval-Augmented Generation (RAG)は、AIGC(AIGC)の課題に対処するために設計された高度な技術である。
RAGは信頼性と最新の外部知識を提供し、幻覚を減らし、幅広いタスクで関連するコンテキストを保証する。
RAGの成功と可能性にもかかわらず、最近の研究により、RAGパラダイムはプライバシーの懸念、敵対的攻撃、説明責任の問題など、新たなリスクももたらしていることが示されている。
論文 参考訳(メタデータ) (2025-02-08T06:50:47Z) - CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model [9.224965304457708]
本稿では,新しいマルチモーダル検索フレームワークであるMLLM (CUE-M) について述べる。
画像コンテキストの強化、インテントの洗練、コンテキストクエリ生成、外部APIの統合、関連ベースのフィルタリングなどが含まれている。
知識に基づくVQAと安全性に関する実単語データセットと公開ベンチマークの実験は、CUE-Mがベースラインを上回り、新しい最先端の結果を確立することを示した。
論文 参考訳(メタデータ) (2024-11-19T07:16:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。