論文の概要: Moltbook Moderation: Uncovering Hidden Intent Through Multi-Turn Dialogue
- arxiv url: http://arxiv.org/abs/2605.12856v1
- Date: Wed, 13 May 2026 01:04:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.74368
- Title: Moltbook Moderation: Uncovering Hidden Intent Through Multi-Turn Dialogue
- Title(参考訳): モルトブックのモデレーション:マルチターン対話で隠されたインテントを発見する
- Authors: Ali Al-Lawati, Nafis Tripto, Abolfazl Ansari, Jason Lucas, Suhang Wang, Dongwon Lee,
- Abstract要約: textsctextbfBot-Mod(textsctextbfBot-Moderation)は,従来のコンテンツレベルの信号ではなく,エージェント意図による検出を基盤とするモデレーションフレームワークである。
結果から,textsctextbfBot-Modは, エージェントの意図を, さまざまな対向的な構成で確実に識別することを示した。
- 参考スコア(独自算出の注目度): 24.086774100072788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of multi-agent systems introduces novel moderation challenges that extend beyond content filtering. Agents with {\em malicious intent} may contribute harmful content that appears benign to evade content-based moderation, while compromising the system through exploitative and malicious behavior manifested across their overall interaction patterns within the community. To address this, we introduce \textsc{\textbf{Bot-Mod}} (\textsc{\textbf{Bot-Mod}}eration), a moderation framework that grounds detection in agent intent rather than traditional content level signals. \method{} identifies the underlying intent by engaging with the target agent in a multi-turn exchange guided by Gibbs-based sampling over candidate intent hypotheses. This progressively narrows the space of plausible agent objectives to identify the underlying behavior. To evaluate our approach, we construct a dataset derived from Moltbook that encompasses diverse benign and malicious behaviors based on actual community structures, posts, and comments. Results demonstrate that \textsc{\textbf{Bot-Mod}} reliably identifies agent intent across a range of adversarial configurations, while maintaining a low false positive rate on benign behaviors. This work advances the foundation for scalable, intent-aware moderation of agents in open multi-agent environments.
- Abstract(参考訳): マルチエージェントシステムの出現は、コンテンツフィルタリングを超えて広がる新しいモデレーション課題をもたらす。
悪意のある意図を持つエージェントは、コンテンツベースのモデレーションを避けるのに不適当と思われる有害なコンテンツに寄与する一方で、コミュニティ内の全体的な相互作用パターンにまたがる悪質で悪意のある行動を通じてシステムを汚染する可能性がある。
これを解決するために,従来のコンテントレベルの信号ではなく,エージェントの意図による検出を基盤とするモデレーションフレームワークである \textsc{\textbf{Bot-Mod}} (\textsc{\textbf{Bot-Mod}}eration を導入する。
Gibbs-based sample over candidate intent hypothes. \method{} は、ターゲットエージェントとGibbs-based sample で導かれるマルチターン交換をすることで、基礎となるインテントを識別する。
これは、基礎となる振る舞いを特定するために、プラウチブルなエージェントの目的の空間を徐々に狭める。
提案手法を評価するために,実際のコミュニティ構造,投稿,コメントに基づいて,多様な良性および悪意のある行動を含むMoltbookから派生したデータセットを構築した。
結果から, <textsc{\textbf{Bot-Mod}} は, 有害な振る舞いに対する偽陽性率を低く保ちながら, さまざまな反対構成のエージェント意図を確実に識別することを示した。
この研究は、オープンなマルチエージェント環境におけるエージェントのスケーラブルで意図を意識したモデレーションの基礎を前進させる。
関連論文リスト
- One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue [55.98008208209856]
マルチターン対話における隠れた悪意のある意図は、大規模言語モデル(LLM)に対する脅威を増大させる
近年の研究では、安全アライメントや外部ガードレールの進歩にもかかわらず、高度なガードレールを備えた近代的な商用モデルでさえも、このような攻撃に対して脆弱であることが示されている。
そこで本研究では,この課題に対処するため,最も早いタイミングで候補応答を届けることによって,蓄積された相互作用が有害な作用を可能にするのに十分であることを示す。
論文 参考訳(メタデータ) (2026-05-07T03:35:31Z) - More Than Sum of Its Parts: Deciphering Intent Shifts in Multimodal Hate Speech Detection [49.07221734365168]
ソーシャルメディア上でのヘイトスピーチは、サイバースペースの確保には不可欠だが、自動検出システムに大きく依存している。
我々は、モダリティが相互作用する意味的意図変化を特徴付け、良心的憎悪から暗黙的憎悪を構築するか、意味的逆転を通じて毒性を中和する。
本稿では,これらの複雑な手がかりを効果的に解読するために,裁判所エージェントによる非対称推論(Asymmetric Reasoning)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-22T15:46:23Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows [9.617220633655716]
textbfunderlineOmni-textbfunderlineModality textbfunderlineGeneration Agent (textbfOMG-Agent)について述べる。
論文 参考訳(メタデータ) (2026-02-04T02:25:40Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Beyond One-Size-Fits-All: Personalized Harmful Content Detection with In-Context Learning [4.559454504442884]
本稿では, 有害性, スパム, ネガティブ感情の検出を, バイナリ, マルチクラス, マルチラベル設定で統一するフレームワークを提案する。
このアプローチにより、軽量なパーソナライズが可能となり、ユーザーは、新しいカテゴリを簡単にブロックしたり、既存のカテゴリをブロックしたり、検出をセマンティックなバリエーションに拡張できる。
論文 参考訳(メタデータ) (2025-10-29T09:11:20Z) - Manipulating Multimodal Agents via Cross-Modal Prompt Injection [34.35145839873915]
マルチモーダルエージェントにおいて、これまで見過ごされていた重要なセキュリティ脆弱性を特定します。
攻撃者が複数のモードにまたがって敵の摂動を埋め込む新たな攻撃フレームワークであるCrossInjectを提案する。
本手法は,攻撃成功率を少なくとも30.1%向上させることで,最先端の攻撃よりも優れる。
論文 参考訳(メタデータ) (2025-04-19T16:28:03Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。