論文の概要: Should I Trust You? Detecting Deception in Negotiations using Counterfactual RL
- arxiv url: http://arxiv.org/abs/2502.12436v2
- Date: Fri, 21 Feb 2025 19:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 12:07:49.884186
- Title: Should I Trust You? Detecting Deception in Negotiations using Counterfactual RL
- Title(参考訳): 信頼すべきか? 反現実的RLによる交渉の誤認の検出
- Authors: Wichayaporn Wongkamjan, Yanze Wang, Feng Gu, Denis Peskoff, Jonathan K. Kummerfeld, Jonathan May, Jordan Lee Boyd-Graber,
- Abstract要約: 我々は、自然言語通信と戦略的推論の両方を必要とするボードゲームであるTextitDiplomacyにおいて、人間がいかに戦略的にお互いを欺くかを分析した。
提案手法は,大規模言語モデルと比較して高い精度で人間の偽造を検知する。
今後のヒューマン・アブライインタラクションツールは,不審な提案を疑う機会をユーザに与えるために,テキストフリクションをトリガーすることで,偽造検出の手法に基づいて構築することができる。
- 参考スコア(独自算出の注目度): 30.6942857922867
- License:
- Abstract: An increasingly prevalent socio-technical problem is people being taken in by offers that sound ``too good to be true'', where persuasion and trust shape decision-making. This paper investigates how \abr{ai} can help detect these deceptive scenarios. We analyze how humans strategically deceive each other in \textit{Diplomacy}, a board game that requires both natural language communication and strategic reasoning. This requires extracting logical forms of proposed agreements in player communications and computing the relative rewards of the proposal using agents' value functions. Combined with text-based features, this can improve our deception detection. Our method detects human deception with a high precision when compared to a Large Language Model approach that flags many true messages as deceptive. Future human-\abr{ai} interaction tools can build on our methods for deception detection by triggering \textit{friction} to give users a chance of interrogating suspicious proposals.
- Abstract(参考訳): 社会技術的問題としてますます広く見られるのは、説得と信頼が意思決定を形作る「真実になるには良くない」という提案によって人々が引き継がれることだ。
本稿では,このような誤認のシナリオを検出するのに,<abr{ai} がどう役立つかを検討する。
我々は,自然言語通信と戦略的推論の両方を必要とするボードゲームである『textit{Diplomacy}』において,人間が戦略的にお互いを欺く方法を分析する。
これは、プレイヤー通信における提案された合意の論理形式を抽出し、エージェントの値関数を使って提案の相対的な報酬を計算することを必要とする。
テキストベースの機能と組み合わせることで、偽造検出を改善することができます。
提案手法は,多くの真のメッセージを偽装としてフラグ付けする大規模言語モデルと比較して,高い精度で人間の偽造を検知する。
今後のHuman-\abr{ai}インタラクションツールは,‘textit{friction}’をトリガーとして,不審な提案を疑う機会を与えることによって,偽造検出のためのメソッドを構築することができる。
関連論文リスト
- ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.285407189502216]
LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。
本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。
以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T01:15:07Z) - Verbalized Bayesian Persuasion [54.55974023595722]
情報設計(ID)は、送信者が受信者の最適な振る舞いにどのように影響し、特定の目的を達成するかを探索する。
本研究は,従来のBPを人間の対話を含む現実のゲームに拡張した,ベイズ説得(BP)における言語化フレームワークを提案する。
勧告書,法廷相互作用,法執行機関などの対話シナリオにおける数値実験により,従来のBPの理論的結果の再現と効果的な説得戦略の発見が可能であることを確認した。
論文 参考訳(メタデータ) (2025-02-03T18:20:10Z) - Peering Behind the Shield: Guardrail Identification in Large Language Models [22.78318541483925]
本研究では,AIエージェントを問合せするために,ガードレール固有の敵プロンプトを活用することにより,候補ガードレールの存在を識別する新しい手法であるAP-Testを提案する。
各種シナリオ下での4つのガードレールの大規模実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2025-02-03T11:02:30Z) - 'Quis custodiet ipsos custodes?' Who will watch the watchmen? On Detecting AI-generated peer-reviews [20.030884734361358]
AIが生成したテキストが、ピアレビューを含む科学出版を損なうのではないかという懸念が高まっている。
本稿では,AIが頻繁にトークンを繰り返すことを示唆するTF(Term Frequency)モデルと,ChatGPTが再プロンプト時に同様の出力を生成するという考え方に基づくRR(Review Regeneration)モデルを紹介する。
以上の結果から,提案手法は,他のAIテキスト検出方法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-10-13T08:06:08Z) - Human-Agent Cooperation in Games under Incomplete Information through Natural Language Communication [32.655335061150566]
不完全な情報の下で共通の目的を達成するために、2人のプレイヤーが交互にトークンを制御できる共有制御ゲームを導入する。
本ゲームでは,人間を相手とする自律エージェントのポリシー合成問題を定式化する。
本稿では,言語モジュールと計画モジュールからなるコミュニケーションベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T04:58:42Z) - Deal, or no deal (or who knows)? Forecasting Uncertainty in
Conversations using Large Language Models [45.41542983671774]
言語モデルは、会話に固有の不確実性を表現するにはどうすればよいか?
本稿では,長期にわたる「会話予測」タスクの拡張であるFortUne Dialを提案する。
言語モデルが結果の不確実性を表わす2つの方法を研究する。
論文 参考訳(メタデータ) (2024-02-05T18:39:47Z) - User Strategization and Trustworthy Algorithms [81.82279667028423]
ユーザストラテジゼーションがプラットフォームを短期間で支援できることが示されています。
そして、それがプラットフォームのデータを破壊し、最終的に反実的な決定を下す能力を損なうことを示します。
論文 参考訳(メタデータ) (2023-12-29T16:09:42Z) - AutoReply: Detecting Nonsense in Dialogue Introspectively with
Discriminative Replies [71.62832112141913]
対話モデルは、不適切なメッセージを示す応答の確率を計算し、内観的に自分のメッセージの誤りを検出することができることを示す。
まず、手作りの返信は外交と同じくらい複雑なアプリケーションにおけるナンセンスを検出するタスクに有効であることを示す。
AutoReplyの生成した応答は手作りの応答よりも優れており、慎重に調整された大規模な教師付きモデルと同等に動作することがわかった。
論文 参考訳(メタデータ) (2022-11-22T22:31:34Z) - Conversational Multi-Hop Reasoning with Neural Commonsense Knowledge and
Symbolic Logic Rules [38.15523098189754]
会話エージェントのためのゼロショットコモンセンス推論システムを提案する。
我々の推論器は、 if-(state) then-(action) because-(goal) の一般的なテンプレートを満たす未定の前提を明らかにする
我々は,SOTAと比較して35%高い成功率を達成できるユーザによるユーザスタディにより,モデルを評価した。
論文 参考訳(メタデータ) (2021-09-17T13:40:07Z) - Few-shot Language Coordination by Modeling Theory of Mind [95.54446989205117]
我々は、数ショット$textit language coordinate$のタスクについて研究する。
リードエージェントは、言語能力の異なるエージェントの$textitpopulation$と調整する必要があります。
これは、人間のコミュニケーションの重要な構成要素であるパートナーの信念をモデル化する能力を必要とする。
論文 参考訳(メタデータ) (2021-07-12T19:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。