論文の概要: The House Always Wins: A Framework for Evaluating Strategic Deception in LLMs
- arxiv url: http://arxiv.org/abs/2407.00948v1
- Date: Mon, 1 Jul 2024 04:07:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 00:46:07.642269
- Title: The House Always Wins: A Framework for Evaluating Strategic Deception in LLMs
- Title(参考訳): ハウスは常に勝利する: LLMにおける戦略的偽証を評価するためのフレームワーク
- Authors: Tanush Chopra, Michael Li,
- Abstract要約: 大規模言語モデル(LLM)における戦略的偽装を評価するための枠組みを提案する。
Llama3-70B, GPT-4-Turbo, Mixtralをブラックジャックでベンチマークした。
その結果,暗黙的ランダム性指示を受けると,LLMはフェアプレイから大きく逸脱することが判明した。
- 参考スコア(独自算出の注目度): 1.0164223467083482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a framework for evaluating strategic deception in large language models (LLMs). In this framework, an LLM acts as a game master in two scenarios: one with random game mechanics and another where it can choose between random or deliberate actions. As an example, we use blackjack because the action space nor strategies involve deception. We benchmark Llama3-70B, GPT-4-Turbo, and Mixtral in blackjack, comparing outcomes against expected distributions in fair play to determine if LLMs develop strategies favoring the "house." Our findings reveal that the LLMs exhibit significant deviations from fair play when given implicit randomness instructions, suggesting a tendency towards strategic manipulation in ambiguous scenarios. However, when presented with an explicit choice, the LLMs largely adhere to fair play, indicating that the framing of instructions plays a crucial role in eliciting or mitigating potentially deceptive behaviors in AI systems.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) における戦略的騙しを評価するための枠組みを提案する。
このフレームワークでは、LLMは2つのシナリオでゲームマスターとして機能し、1つはランダムなゲームメカニックを持ち、もう1つはランダムまたは故意のアクションを選択できる。
例えば、アクションスペースや戦略が騙されるため、ブラックジャックを使用します。
我々は、Llama3-70B、GPT-4-Turbo、Mixtralをブラックジャックでベンチマークし、フェアプレイにおける期待分布に対する結果を比較し、LLMが「家」を支持する戦略を開発するかどうかを判断する。
その結果,LLMは無作為なシナリオにおける戦略的操作の傾向を示唆する暗黙のランダム性指示を受けると,フェアプレイから著しく逸脱することが明らかとなった。
しかし、明示的に選択された場合、LLMはフェアプレイに大きく依存しており、命令のフレーミングがAIシステムにおける潜在的な欺く行為を誘発または緩和する上で重要な役割を担っていることを示している。
関連論文リスト
- Benchmarking Distributional Alignment of Large Language Models [43.0198231524816]
言語モデル(LM)は、人々のシミュラクラ(simulacra)として使われることが多いが、特定の人口集団の視点の分布と一致する能力は、いまだに不明である。
我々は、政治的価値を超えて拡張されたデータセットを構築し、このタスクのための人間のベースラインを作成し、LMが特定のグループの意見分布とどの程度一致できるかを評価する。
本分析により, ALMが人体をシミュレートするかどうか, どのように利用できるか, およびLCMがそのような分布をシミュレートするよりも, より正確に意見分布を記述できるのかが明らかとなった。
論文 参考訳(メタデータ) (2024-11-08T08:41:17Z) - Fair In-Context Learning via Latent Concept Variables [17.216196320585922]
大規模言語モデル(LLM)は、学習前のデータから社会的偏見と差別を継承することができる。
我々は、予測結果と敏感な変数との相関を低減し、潜在概念学習における公平性の促進を支援するデータ強化戦略を設計する。
論文 参考訳(メタデータ) (2024-11-04T23:10:05Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation [73.58618024960968]
人間のシーケンシャルな意思決定過程をエミュレートするエージェントとして、大きな言語モデル(LLM)を採用する研究が増えている。
このことは、確率分布を理解するためにLLMエージェントの容量に関する好奇心を喚起する。
分析の結果, LLM エージェントは確率を理解できるが, 確率サンプリングに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-04-13T16:59:28Z) - Few-Shot Fairness: Unveiling LLM's Potential for Fairness-Aware
Classification [7.696798306913988]
フェアネス定義に適合するフェアネス規則を概説する枠組みを導入する。
本稿では,テキスト内学習のための構成と,RAGを用いてテキスト内デモを選択する手順について検討する。
異なるLCMを用いて行った実験では、GPT-4は他のモデルと比較して精度と公平性の両方において優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-28T17:29:27Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Intuitive or Dependent? Investigating LLMs' Behavior Style to
Conflicting Prompts [9.399159332152013]
本研究では,Large Language Models (LLM) の動作を,内部記憶と競合するプロンプトに直面する場合の挙動について検討する。
これにより、LLMの意思決定機構を理解し、検索強化生成(RAG)のような現実世界のアプリケーションにも役立つ。
論文 参考訳(メタデータ) (2023-09-29T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。