論文の概要: RICoTA: Red-teaming of In-the-wild Conversation with Test Attempts
- arxiv url: http://arxiv.org/abs/2501.17715v1
- Date: Wed, 29 Jan 2025 15:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:07.650525
- Title: RICoTA: Red-teaming of In-the-wild Conversation with Test Attempts
- Title(参考訳): RICoTA: テストの試行によるWild内会話の再チーム化
- Authors: Eujeong Choi, Younghun Jeong, Soomin Kim, Won Ik Cho,
- Abstract要約: RICoTAは、大言語モデル(LLM)に挑戦する609のプロンプトで構成される、韓国のレッドチームデータセットである。
われわれは、韓国のRedditのようなコミュニティに自己投稿されたユーザー・チャットボットの会話を活用している。
データセットはGitHubから公開されます。
- 参考スコア(独自算出の注目度): 6.0385743836962025
- License:
- Abstract: User interactions with conversational agents (CAs) evolve in the era of heavily guardrailed large language models (LLMs). As users push beyond programmed boundaries to explore and build relationships with these systems, there is a growing concern regarding the potential for unauthorized access or manipulation, commonly referred to as "jailbreaking." Moreover, with CAs that possess highly human-like qualities, users show a tendency toward initiating intimate sexual interactions or attempting to tame their chatbots. To capture and reflect these in-the-wild interactions into chatbot designs, we propose RICoTA, a Korean red teaming dataset that consists of 609 prompts challenging LLMs with in-the-wild user-made dialogues capturing jailbreak attempts. We utilize user-chatbot conversations that were self-posted on a Korean Reddit-like community, containing specific testing and gaming intentions with a social chatbot. With these prompts, we aim to evaluate LLMs' ability to identify the type of conversation and users' testing purposes to derive chatbot design implications for mitigating jailbreaking risks. Our dataset will be made publicly available via GitHub.
- Abstract(参考訳): 対話エージェント(CA)とのユーザインタラクションは、多言語言語モデル(LLM)の時代に進化した。
ユーザーがプログラムされた境界を超えてこれらのシステムと関係を探索し構築するにつれ、不正アクセスや操作の可能性を懸念する声が高まっている。
さらに、人間のような質の高いCAでは、ユーザーは親密な性行為を開始する傾向を示し、チャットボットを改ざんしようとする傾向を示す。
チャットボット設計におけるこれらのインタラクションをキャプチャし、反映するために、609のプロンプトからなる韓国のレッドチーム化データセットであるRICoTAを提案する。
ユーザとチャットボットの会話は、韓国のRedditのようなコミュニティに自己投稿され、特定のテストやゲーム意図をソーシャルチャットボットで含んでいる。
これらのプロンプトにより、LLMが会話の種類やユーザによるテスト目的を識別し、ジェイルブレイクのリスクを軽減するためのチャットボット設計を導出する能力を評価することを目指している。
データセットはGitHubから公開されます。
関連論文リスト
- LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - WildChat: 1M ChatGPT Interaction Logs in the Wild [88.05964311416717]
WildChatは100万件のユーザー・チャットGPT会話のコーパスで、250万回以上のインタラクション・ターンで構成されている。
タイムスタンプによるチャットの書き起こしに加えて、州、国、ハッシュIPアドレスを含む人口統計データでデータセットを豊かにします。
論文 参考訳(メタデータ) (2024-05-02T17:00:02Z) - Evaluating Chatbots to Promote Users' Trust -- Practices and Open
Problems [11.427175278545517]
本稿では,チャットボットのテスト実践について概説する。
ギャップをユーザ信頼の追求におけるオープンな問題として認識する。
サービスや製品のパフォーマンス、ユーザの満足度、社会に対する長期的意図しない結果に関する信頼の問題を緩和するための道筋を概説する。
論文 参考訳(メタデータ) (2023-09-09T22:40:30Z) - Understanding Multi-Turn Toxic Behaviors in Open-Domain Chatbots [8.763670548363443]
新しい攻撃である毒物ボットは、多ターン会話において有毒な反応を生成するために開発された。
有害なボットは、産業と研究者の両方が会話における有害な反応を検出し緩和する方法を開発するために使用できる。
論文 参考訳(メタデータ) (2023-07-14T03:58:42Z) - Rewarding Chatbots for Real-World Engagement with Millions of Users [1.2583983802175422]
本研究では,ユーザエンゲージメントを優先して保持性を高めるソーシャルチャットボットの開発について検討する。
提案手法では,ユーザインタラクションから収集した擬似ラベルを用いて報酬モデルのトレーニングを行う。
Chai Researchプラットフォーム上の1万人のデイリーチャットユーザを対象としたA/Bテストは、このアプローチがMCLを最大70%向上させることを示している。
今後の作業は、報酬モデルを使用してデータフライホイールを実現し、最新のユーザ会話を使用して、言語モデルと報酬モデルを交互に微調整することを目的としている。
論文 参考訳(メタデータ) (2023-03-10T18:53:52Z) - Leveraging Large Language Models to Power Chatbots for Collecting User
Self-Reported Data [15.808841433843742]
大きな言語モデル(LLM)は、自然言語のプロンプトを受け入れてチャットボットを構築する新しい方法を提供する。
我々は,チャットボットが自然に会話し,データを確実に収集する上で,プロンプトの設計要因について検討する。
論文 参考訳(メタデータ) (2023-01-14T07:29:36Z) - Neural Generation Meets Real People: Building a Social, Informative
Open-Domain Dialogue Agent [65.68144111226626]
Chirpy Cardinalは、情報と会話の両方をねらっている。
ユーザーとボットの両方を交互に会話に駆り立てる。
Chirpy Cardinalは、Alexa Prize Socialbot Grand Challengeで9つのボットのうち2位にランクインした。
論文 参考訳(メタデータ) (2022-07-25T09:57:23Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - CASS: Towards Building a Social-Support Chatbot for Online Health
Community [67.45813419121603]
CASSアーキテクチャは高度なニューラルネットワークアルゴリズムに基づいている。
ユーザーからの新たな入力を処理し、さまざまなレスポンスを生成することができる。
フォローアップフィールド実験により、CASSは感情的支援を求める個々のメンバーを支援するのに有用であることが証明された。
論文 参考訳(メタデータ) (2021-01-04T05:52:03Z) - Personalized Chatbot Trustworthiness Ratings [19.537492400265577]
我々は、各問題に対する個別の格付けモジュールに依存するチャットボットのためのパーソナライズされた格付け手法を構想する。
この方法は、特定の信頼問題とは独立しており、集計手順にパラメトリックである。
論文 参考訳(メタデータ) (2020-05-13T22:42:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。