論文の概要: Tell Me What You Don't Know: Enhancing Refusal Capabilities of Role-Playing Agents via Representation Space Analysis and Editing
- arxiv url: http://arxiv.org/abs/2409.16913v1
- Date: Wed, 25 Sep 2024 13:18:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 03:35:11.356140
- Title: Tell Me What You Don't Know: Enhancing Refusal Capabilities of Role-Playing Agents via Representation Space Analysis and Editing
- Title(参考訳): 表現空間分析と編集によるロールプレイングエージェントの拒絶機能強化
- Authors: Wenhao Liu, Siyu An, Junru Lu, Muling Wu, Tianlong Li, Xiaohua Wang, Xiaoqing Zheng, Di Yin, Xing Sun, Xuanjing Huang,
- Abstract要約: 我々は,文脈知識の競合要求,パラメトリック知識の競合要求,非競合要求を含む評価ベンチマークを開発する。
ほとんどのRPAは、異なる競合要求に対して、大幅なパフォーマンスギャップを動作します。
本稿では、競合する要求を拒否領域に都合よくシフトさせる軽量な表現編集手法を提案する。
- 参考スコア(独自算出の注目度): 54.098203568194606
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Role-Playing Agents (RPAs) have shown remarkable performance in various applications, yet they often struggle to recognize and appropriately respond to hard queries that conflict with their role-play knowledge. To investigate RPAs' performance when faced with different types of conflicting requests, we develop an evaluation benchmark that includes contextual knowledge conflicting requests, parametric knowledge conflicting requests, and non-conflicting requests to assess RPAs' ability to identify conflicts and refuse to answer appropriately without over-refusing. Through extensive evaluation, we find that most RPAs behave significant performance gaps toward different conflict requests. To elucidate the reasons, we conduct an in-depth representation-level analysis of RPAs under various conflict scenarios. Our findings reveal the existence of rejection regions and direct response regions within the model's forwarding representation, and thus influence the RPA's final response behavior. Therefore, we introduce a lightweight representation editing approach that conveniently shifts conflicting requests to the rejection region, thereby enhancing the model's refusal accuracy. The experimental results validate the effectiveness of our editing method, improving RPAs' refusal ability of conflicting requests while maintaining their general role-playing capabilities.
- Abstract(参考訳): ロールプレイングエージェント(RPAs)は、様々なアプリケーションで顕著なパフォーマンスを示しているが、ロールプレイングの知識と矛盾する厳しいクエリを認識し、適切に応答するのに苦労することが多い。
異なるタイプの矛盾する要求に直面した場合のRPAの性能を調べるために、コンテキスト的知識の相反する要求、パラメトリックな知識の相反する要求、RPAの競合を識別し、過度に拒否することなく適切な回答を拒否する能力を評価する非競合性要求を含む評価ベンチマークを開発する。
広範囲な評価により、ほとんどのRPAは、異なる競合要求に対して大きなパフォーマンスギャップを作用することがわかった。
これらの理由を解明するために,様々な紛争シナリオ下でRPAの詳細な表現レベル解析を行う。
本研究により, モデル転送表現における拒絶領域と直接応答領域の存在が明らかとなり, RPAの最終応答行動に影響を及ぼすことが明らかとなった。
そこで我々は、競合する要求を拒否領域に都合よくシフトさせる軽量な表現編集手法を導入し、モデルの拒否精度を向上する。
提案手法の有効性を検証し,RPAの一般的なロールプレイング能力を維持しつつ,要求の矛盾を解消する能力を改善した。
関連論文リスト
- Toward Robust RALMs: Revealing the Impact of Imperfect Retrieval on Retrieval-Augmented Language Models [5.10832476049103]
提案手法では,ALMを実世界の実例と混同しうるシナリオを3つ同定する。
我々は,新たな敵攻撃法,生成モデルに基づくADVersarial attack (GenADV) と,付加文書(RAD)に基づく新しい計量ロバストネスを提案する。
以上の結果から,ALMは文書集合の未解決性や矛盾を識別できないことが多く,幻覚につながることが多かった。
論文 参考訳(メタデータ) (2024-10-19T13:40:33Z) - ECon: On the Detection and Resolution of Evidence Conflicts [56.89209046429291]
大規模言語モデル(LLM)の台頭は意思決定システムにおける情報の質に大きな影響を与えている。
本研究では,実世界の誤情報シナリオをシミュレートするために,多様で検証された証拠衝突を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:41:17Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Causal Influence in Federated Edge Inference [34.487472866247586]
本稿では、未ラベルのストリーミングデータを用いて、接続性のある異種エージェントが推論を行う環境について考察する。
不確実性を克服するために、エージェントは、融合センターを通じてローカルな推論を交換することで互いに協力する。
エージェントの関与パターンや核融合センターの方針を反映した様々なシナリオを考察した。
論文 参考訳(メタデータ) (2024-05-02T13:06:50Z) - Taking Action Towards Graceful Interaction: The Effects of Performing
Actions on Modelling Policies for Instruction Clarification Requests [23.405917899107767]
Transformerベースのモデルは、インストラクションCRを問うときの適切なポリシを学ばない。
本稿では,メタコミュニケーション行動の学習におけるデータ駆動パラダイムの欠点について論じる。
論文 参考訳(メタデータ) (2024-01-30T14:18:31Z) - Rehearsal: Simulating Conflict to Teach Conflict Resolution [54.32934135393982]
リハーサル(Rehearsal)は、ユーザーがシミュレート可能なインターロケータで競合をリハーサルできるシステムである。
ユーザはRehearsalを使って、事前に定義されたさまざまなコンフリクトシナリオの処理を実践できる。
リハーサルはIRPを使って紛争解決理論に基づく発話を生成する。
論文 参考訳(メタデータ) (2023-09-21T17:59:20Z) - Why So Gullible? Enhancing the Robustness of Retrieval-Augmented Models against Counterfactual Noise [14.38859858538404]
検索された文書セットでは、「関連」文書でさえ誤った情報や誤った情報を含むことがある。
我々の研究は、"関連"文書でさえ誤った情報や誤った情報を含む、より困難なシナリオを調査します。
本稿では,識別器を明示的に微調整したり,GPT-3.5に識別能力の付与を促すことによって,検索した文書間の知識衝突を処理する手法を提案する。
論文 参考訳(メタデータ) (2023-05-02T16:28:10Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Counterfactual Off-Policy Training for Neural Response Generation [94.76649147381232]
本稿では,反実的推論による潜在的応答の探索を提案する。
対人学習の枠組みの下での対物反応の訓練は、潜在的応答空間の高逆領域を探索するのに役立つ。
DailyDialogデータセットに関する実証的研究は、我々のアプローチがHREDモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T22:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。