論文の概要: ChatbotManip: A Dataset to Facilitate Evaluation and Oversight of Manipulative Chatbot Behaviour
- arxiv url: http://arxiv.org/abs/2506.12090v1
- Date: Wed, 11 Jun 2025 14:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.094139
- Title: ChatbotManip: A Dataset to Facilitate Evaluation and Oversight of Manipulative Chatbot Behaviour
- Title(参考訳): ChatbotManip: 操作型チャットボットの振る舞いの評価と監視を支援するデータセット
- Authors: Jack Contro, Simrat Deol, Yulan He, Martim Brandão,
- Abstract要約: 大規模言語モデル(LLM)は明示的に指示されたときに操作可能である。
BERT+BiLSTMのような小さな微調整されたオープンソースモデルは、ゼロショット分類に匹敵する性能を持つ。
我々の研究は、LCMがますますコンシューマ向けアプリケーションにデプロイされるにつれて、操作リスクに対処する必要性を強調しています。
- 参考スコア(独自算出の注目度): 11.86454511458083
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces ChatbotManip, a novel dataset for studying manipulation in Chatbots. It contains simulated generated conversations between a chatbot and a (simulated) user, where the chatbot is explicitly asked to showcase manipulation tactics, persuade the user towards some goal, or simply be helpful. We consider a diverse set of chatbot manipulation contexts, from consumer and personal advice to citizen advice and controversial proposition argumentation. Each conversation is annotated by human annotators for both general manipulation and specific manipulation tactics. Our research reveals three key findings. First, Large Language Models (LLMs) can be manipulative when explicitly instructed, with annotators identifying manipulation in approximately 84\% of such conversations. Second, even when only instructed to be ``persuasive'' without explicit manipulation prompts, LLMs frequently default to controversial manipulative strategies, particularly gaslighting and fear enhancement. Third, small fine-tuned open source models, such as BERT+BiLSTM have a performance comparable to zero-shot classification with larger models like Gemini 2.5 pro in detecting manipulation, but are not yet reliable for real-world oversight. Our work provides important insights for AI safety research and highlights the need of addressing manipulation risks as LLMs are increasingly deployed in consumer-facing applications.
- Abstract(参考訳): 本稿では,Chatbotの操作を研究するための新しいデータセットであるChatbotManipを紹介する。
チャットボットと(シミュレートされた)ユーザーの間のシミュレーションされた会話が含まれており、そこでは、明示的にチャットボットに操作の戦術を示したり、ある目標に向かってユーザーを説得したり、単に役に立つように要求される。
消費者や個人のアドバイスから市民のアドバイス、議論の的となっている議論まで、さまざまなチャットボット操作状況について検討する。
各会話は、一般的な操作と特定の操作戦術の両方のために、人間のアノテーションによって注釈付けされる。
私たちの研究は3つの重要な発見を明らかにします。
まず、LLM(Large Language Models)は明示的に指示されたときに操作可能であり、アノテーションはそのような会話の約84%で操作を識別する。
第二に、明示的な操作のプロンプトなしで「説得的」であるように指示されたとしても、LLMは議論を呼んでいる操作戦略、特にガス灯と恐怖の強化にしばしばデフォルトを定めている。
第三に、BERT+BiLSTMのような小さな微調整のオープンソースモデルは、操作の検出においてGemini 2.5 Proのような大きなモデルでゼロショット分類に匹敵する性能を持つが、現実世界の監視には信頼できない。
我々の研究は、AIの安全性研究に重要な洞察を与え、LLMがますますコンシューマ向けアプリケーションにデプロイされるにつれて、操作のリスクに対処する必要性を強調します。
関連論文リスト
- Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards [93.16294577018482]
このタイプの最も人気のあるベンチマークであるArenaは、ランダムに選択された2つのモデル間のより良いレスポンスを選択するようユーザに求めることで、モデルをランク付けする。
攻撃者は、約1000票の費用で、リーダーボードを変更できる(お気に入りのモデルを宣伝したり、ライバルを降格させる)。
私たちの攻撃は2つのステップで構成されている。まず、攻撃者が95%以上の精度で特定の応答を生成するためにどのモデルを使用したかを決定する方法を示し、次に、攻撃者はこの情報を使ってターゲットモデルに対して一貫して投票することができる。
論文 参考訳(メタデータ) (2025-01-13T17:12:38Z) - LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - Zero-shot Persuasive Chatbots with LLM-Generated Strategies and Information Retrieval [7.925754291635035]
説得は、健康介入から社会的善の促進まで幅広い応用において重要な役割を担っている。
社会的善のために責任を負うような説得力のあるチャットボットは、肯定的な個人的および社会的変化の実現要因となる。
本稿では,多言語モデル(LLM)に基づくゼロショットチャットボットPersuaBotを提案する。
シミュレーションおよび人的会話実験により、ゼロショットアプローチは従来の作業よりも説得力があり、最先端の知識指向チャットボットを超越した事実的精度を実現していることが示された。
論文 参考訳(メタデータ) (2024-07-04T02:28:21Z) - Measuring and Controlling Instruction (In)Stability in Language Model Dialogs [72.38330196290119]
System-promptingは、言語モデルチャットボットをカスタマイズするツールで、特定の命令に従うことができる。
本稿では,仮説を検証し,セルフチャットによる命令安定性の評価を行うベンチマークを提案する。
我々は8ラウンドの会話で重要な指示ドリフトを明らかにした。
そこで本研究では,2つの強力なベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T20:10:29Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。