論文の概要: Open-Domain Safety Policy Construction
- arxiv url: http://arxiv.org/abs/2604.01354v1
- Date: Wed, 01 Apr 2026 20:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.874925
- Title: Open-Domain Safety Policy Construction
- Title(参考訳): オープン・ドメイン・セーフティ・ポリシーの構築
- Authors: Di Wu, Siyue Liu, Zixiang Ji, Ya-Liang Chang, Zhe-Yu Liu, Andrew Pleffer, Kai-Wei Chang,
- Abstract要約: 本稿では,人手によるシードドメイン情報に基づく完全なコンテンツモデレーションポリシーをドラフトする,最小限のエージェントシステムであるDeep Policy Research(DPR)を紹介する。
DPRは、単一のWeb検索ツールと軽量な足場を使用して、検索クエリを反復的に提案し、多様なWebソースをポリシールールに蒸留し、ルールをインデックス化されたドキュメントに整理する。
DPRは定義のみの学習ベースラインとコンテキスト内学習ベースラインを一貫して上回り、エンドツーエンド設定では、いくつかのドメインで専門家によるポリシーセクションと競合します。
- 参考スコア(独自算出の注目度): 38.20216944319717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Moderation layers are increasingly a core component of many products built on user- or model-generated content. However, drafting and maintaining domain-specific safety policies remains costly. We present Deep Policy Research (DPR), a minimal agentic system that drafts a full content moderation policy based on only human-written seed domain information. DPR uses a single web search tool and lightweight scaffolding to iteratively propose search queries, distill diverse web sources into policy rules, and organize rules into an indexed document. We evaluate DPR on (1) the OpenAI undesired content benchmark across five domains with two compact reader LLMs and (2) an in-house multimodal advertisement moderation benchmark. DPR consistently outperforms definition-only and in-context learning baselines, and in our end-to-end setting it is competitive with expert-written policy sections in several domains. Moreover, under the same seed specification and evaluation protocol, DPR outperforms a general-purpose deep research system, suggesting that a task-specific, structured research loop can be more effective than generic web research for policy drafting. We release our experiment code at https://github.com/xiaowu0162/deep-policy-research.
- Abstract(参考訳): モデレーション層は、ユーザまたはモデル生成コンテンツ上に構築される多くの製品の中核的なコンポーネントである。
しかし、ドメイン固有の安全ポリシーの策定と維持にはコストがかかる。
本稿では,人間によるシードドメイン情報のみに基づいて,完全なコンテンツモデレーションポリシーを策定する,最小限のエージェントシステムであるDeep Policy Research(DPR)を紹介する。
DPRは、単一のWeb検索ツールと軽量な足場を使用して、検索クエリを反復的に提案し、多様なWebソースをポリシールールに蒸留し、ルールをインデックス化されたドキュメントに整理する。
我々は,(1) コンパクトリーダー LLM と(2) 社内マルチモーダル広告モデレーションベンチマークを用いて,OpenAI の望ましくないコンテンツベンチマークを5つの領域で評価した。
DPRは定義のみの学習ベースラインとコンテキスト内学習ベースラインを一貫して上回り、エンドツーエンド設定では、いくつかのドメインで専門家によるポリシーセクションと競合します。
さらに、DPRは、同じシード仕様および評価プロトコルの下で、汎用的なディープリサーチシステムよりも優れており、タスク固有の構造化された研究ループは、政策草案作成のためのジェネリックウェブリサーチよりも効果的である可能性が示唆されている。
実験コードはhttps://github.com/xiaowu0162/deep-policy-researchで公開しています。
関連論文リスト
- Multimodal Policy Internalization for Conversational Agents [48.11601444262434]
マルチモーダルポリシー内部化(MPI)は、推論集約型マルチモーダルポリシーをモデルパラメータに内部化する新しいタスクである。
合成と実世界の意思決定とツール使用タスクにまたがる2つのデータセットを構築します。
TriMPIは、エンドツーエンドの精度、一般化、ロバスト性において顕著な向上を実現している。
論文 参考訳(メタデータ) (2025-10-10T15:28:30Z) - DRBench: A Realistic Benchmark for Enterprise Deep Research [81.49694432639406]
DRBenchは、エンタープライズ環境で複雑でオープンなディープリサーチタスクでAIエージェントを評価するためのベンチマークである。
セールス、サイバーセキュリティ、コンプライアンスなど10のドメインにわたる15のディープリサーチタスクをリリースしています。
論文 参考訳(メタデータ) (2025-09-30T18:47:20Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - Fishing for Answers: Exploring One-shot vs. Iterative Retrieval Strategies for Retrieval Augmented Generation [11.180502261031789]
Retrieval-Augmented Generation (RAG) は、LLM(Large Language Models)に基づく、業界におけるクローズドソース文書の理解とクエリのための強力なソリューションである。
しかしながら、基本的なRAGは、法律および規制領域における複雑なQAタスクに苦しむことが多い。
証拠のカバレッジを改善し、品質に答えるための2つの戦略を探求する。
論文 参考訳(メタデータ) (2025-09-05T05:44:50Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z) - ManuSearch: Democratizing Deep Search in Large Language Models with a Transparent and Open Multi-Agent Framework [73.91207117772291]
ManuSearchは,大規模言語モデル(LLM)の深層検索を民主化するために設計された,透明でモジュール化されたマルチエージェントフレームワークである。
ManuSearchは検索と推論のプロセスを,(1)サブクエリを反復的に定式化するソリューション計画エージェント,(2)リアルタイムWeb検索を通じて関連文書を検索するインターネット検索エージェント,(3)生のWebコンテンツから重要な証拠を抽出する構造化Webページ読取エージェントの3つに分解する。
論文 参考訳(メタデータ) (2025-05-23T17:02:02Z) - DP-GTR: Differentially Private Prompt Protection via Group Text Rewriting [25.526993224085093]
既存の手法は主に文書レベルの書き換えに重点を置いており、リッチで多言語的なテキスト表現を無視している。
DP-GTRは、局所微分プライバシー(DP)とグループテキスト書き換えによる合成定理を利用する新しい3段階フレームワークである。
われわれのフレームワークは既存の書き換え技術と互換性があり、プライバシー保護を強化するためのプラグインとして機能している。
論文 参考訳(メタデータ) (2025-03-06T21:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。