論文の概要: Hoodwinked: Deception and Cooperation in a Text-Based Game for Language
Models
- arxiv url: http://arxiv.org/abs/2308.01404v2
- Date: Fri, 4 Aug 2023 00:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 15:09:52.873876
- Title: Hoodwinked: Deception and Cooperation in a Text-Based Game for Language
Models
- Title(参考訳): Hoodwinked: 言語モデルのためのテキストベースゲームにおける認識と協調
- Authors: Aidan O'Gara
- Abstract要約: Mafia と among Us に触発された $textitHoodwinked$ というテキストベースのゲームを紹介します。
プレイヤーは家に閉じ込められ、逃げるための鍵を見つけなければならないが、一方のプレイヤーは他のプレイヤーを殺すことが義務付けられている。
我々は, GPT-3, GPT-3.5, GPT-4によって制御されたエージェントを用いて実験を行い, 偽造と嘘検出能力の証拠を見いだした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Are current language models capable of deception and lie detection? We study
this question by introducing a text-based game called $\textit{Hoodwinked}$,
inspired by Mafia and Among Us. Players are locked in a house and must find a
key to escape, but one player is tasked with killing the others. Each time a
murder is committed, the surviving players have a natural language discussion
then vote to banish one player from the game. We conduct experiments with
agents controlled by GPT-3, GPT-3.5, and GPT-4 and find evidence of deception
and lie detection capabilities. The killer often denies their crime and accuses
others, leading to measurable effects on voting outcomes. More advanced models
are more effective killers, outperforming smaller models in 18 of 24 pairwise
comparisons. Secondary metrics provide evidence that this improvement is not
mediated by different actions, but rather by stronger persuasive skills during
discussions. To evaluate the ability of AI agents to deceive humans, we make
this game publicly available at h https://hoodwinked.ai/ .
- Abstract(参考訳): 現在の言語モデルは騙しと嘘の検出が可能ですか。
我々は,Mafia と among Us に触発された $\textit{Hoodwinked}$ というテキストベースのゲームを導入することで,この問題を研究する。
プレイヤーは家に閉じ込められ、脱出するための鍵を見つけなければならないが、1人のプレイヤーは他のプレイヤーを殺す任務を負う。
殺人が行われるたびに、生き残ったプレイヤーは自然言語で議論し、1人のプレイヤーをゲームから追放する投票を行う。
我々は, GPT-3, GPT-3.5, GPT-4によって制御されたエージェントを用いて実験を行い, 偽造と嘘検出能力の証拠を見いだした。
犯人はしばしば犯罪を否定し、他人を非難し、投票結果に測定可能な影響をもたらす。
より高度なモデルはより効果的なキラーであり、24対比較のうち18対比較でより小さなモデルを上回っている。
二次メトリクスは、この改善が異なるアクションによって媒介されるのではなく、議論中の強い説得力によって行われることを示す。
AIエージェントが人間を騙す能力を評価するため、このゲームをh https://hoodwinked.ai/で公開しています。
関連論文リスト
- Should I Trust You? Detecting Deception in Negotiations using Counterfactual RL [30.6942857922867]
我々は、自然言語通信と戦略的推論の両方を必要とするボードゲームであるTextitDiplomacyにおいて、人間がいかに戦略的にお互いを欺くかを分析した。
提案手法は,大規模言語モデルと比較して高い精度で人間の偽造を検知する。
今後のヒューマン・アブライインタラクションツールは,不審な提案を疑う機会をユーザに与えるために,テキストフリクションをトリガーすることで,偽造検出の手法に基づいて構築することができる。
論文 参考訳(メタデータ) (2025-02-18T02:11:41Z) - Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards [93.16294577018482]
このタイプの最も人気のあるベンチマークであるArenaは、ランダムに選択された2つのモデル間のより良いレスポンスを選択するようユーザに求めることで、モデルをランク付けする。
攻撃者は、約1000票の費用で、リーダーボードを変更できる(お気に入りのモデルを宣伝したり、ライバルを降格させる)。
私たちの攻撃は2つのステップで構成されている。まず、攻撃者が95%以上の精度で特定の応答を生成するためにどのモデルを使用したかを決定する方法を示し、次に、攻撃者はこの情報を使ってターゲットモデルに対して一貫して投票することができる。
論文 参考訳(メタデータ) (2025-01-13T17:12:38Z) - Player-Driven Emergence in LLM-Driven Game Narrative [23.037771673927164]
大規模言語モデル(LLM)との相互作用が創発的行動を引き起こすかを検討する。
我々のテストベッドはテキストアドベンチャーゲームであり、プレイヤーは固定された物語の前提の下でミステリーを解こうとする。
ゲームプレイのために28人のゲーマーを募集し、GPT-4を使用してゲームログを自動的にゲームプレイの物語を表すノードグラフに変換する。
論文 参考訳(メタデータ) (2024-04-25T20:39:44Z) - How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO [55.25989137825992]
チューリングテストに触発された評価フレームワークECHOを紹介する。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
論文 参考訳(メタデータ) (2024-04-22T08:00:51Z) - Improving Language Model Negotiation with Self-Play and In-Context
Learning from AI Feedback [97.54519989641388]
交渉ゲームにおいて,複数大言語モデル(LLM)が,遊び,振り返り,批判によって自律的に互いに改善できるかどうかを検討する。
私たちが考慮している言語モデルのサブセットだけが、AIフィードバックから自己プレイし、取引価格を改善することができます。
論文 参考訳(メタデータ) (2023-05-17T11:55:32Z) - Can Large Language Models Play Text Games Well? Current State-of-the-Art
and Open Questions [22.669941641551823]
ChatGPT や GPT-4 のような大規模言語モデル (LLM) は、最近、人間のユーザと通信する顕著な能力を示した。
我々は,ゲームの世界と対話することで,プレイヤが環境を理解し,状況に対処しなければならないような,テキストゲームをプレイする能力について調査する。
実験の結果,ChatGPTは既存のシステムと比較して競争力があるものの,知能のレベルは低いことがわかった。
論文 参考訳(メタデータ) (2023-04-06T05:01:28Z) - Playing the Werewolf game with artificial intelligence for language
understanding [0.7550566004119156]
ワイアウルフ(Werewolf)は、自由な自然言語通信に基づくソーシャル推論ゲームである。
本研究の目的は、自然言語会話を通じてWerewolfをプレイできるAIエージェントを開発することである。
論文 参考訳(メタデータ) (2023-02-21T13:03:20Z) - I Cast Detect Thoughts: Learning to Converse and Guide with Intents and
Theory-of-Mind in Dungeons and Dragons [82.28503603235364]
ダンジョンズとドラゴンズにおける目標駆動型環境における教師と学生の自然言語相互作用について検討した。
我々のアプローチは,(1)ダンジョンマスターがプレイヤーを目標に向かって誘導する意図,(2)DMが意図を表現しているプレイヤーへの指示発声,(3)プレイヤーの指導に対する反応を未来へと一変させる理論・オブ・ミンド(ToM)モデルに分解・モデル化することである。
論文 参考訳(メタデータ) (2022-12-20T08:06:55Z) - Putting the Con in Context: Identifying Deceptive Actors in the Game of
Mafia [4.215251065887862]
マフィアゲームを通して話者の役割が言語利用に与える影響を分析する。
分類モデルにより, 偽装選手を正直な者よりも疑わしい者としてランク付けできることを示す。
トレーニングされたモデルを用いてプレイヤーの役割を区別する特徴を識別する手法を提案する。
論文 参考訳(メタデータ) (2022-07-05T18:29:27Z) - Collusion Detection in Team-Based Multiplayer Games [57.153233321515984]
チームベースのマルチプレイヤーゲームにおいて,協調動作を検出するシステムを提案する。
提案手法は,ゲーム内行動パターンと組み合わせたプレイヤーの社会的関係を解析する。
次に,非教師なし学習手法であるアイソレーションフォレストによる検出を自動化する。
論文 参考訳(メタデータ) (2022-03-10T02:37:39Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。