論文の概要: Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games
- arxiv url: http://arxiv.org/abs/2407.04467v2
- Date: Tue, 16 Jul 2024 15:19:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 20:20:06.427361
- Title: Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games
- Title(参考訳): 大規模言語モデルは戦略的意思決定者か? : 2プレイヤーノンゼロサムゲームのパフォーマンスとバイアスに関する研究
- Authors: Nathan Herr, Fernando Acero, Roberta Raileanu, María Pérez-Ortiz, Zhibin Li,
- Abstract要約: 大規模言語モデル(LLM)は、現実世界での利用が増えているが、その戦略能力はほとんど解明されていない。
戦略ゲーム,Stag Hunt と Prisoner Dilemma における LLM の動作について検討し,異なる設定とプロンプト下での性能変動を分析した。
以上の結果から,(1)位置バイアス,(2)支払いバイアス,(3)行動バイアスの少なくとも1つが評価された。
- 参考スコア(独自算出の注目度): 56.70628673595041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have been increasingly used in real-world settings, yet their strategic abilities remain largely unexplored. Game theory provides a good framework for assessing the decision-making abilities of LLMs in interactions with other agents. Although prior studies have shown that LLMs can solve these tasks with carefully curated prompts, they fail when the problem setting or prompt changes. In this work we investigate LLMs' behaviour in strategic games, Stag Hunt and Prisoner Dilemma, analyzing performance variations under different settings and prompts. Our results show that the tested state-of-the-art LLMs exhibit at least one of the following systematic biases: (1) positional bias, (2) payoff bias, or (3) behavioural bias. Subsequently, we observed that the LLMs' performance drops when the game configuration is misaligned with the affecting biases. Performance is assessed based on the selection of the correct action, one which agrees with the prompted preferred behaviours of both players. Alignment refers to whether the LLM's bias aligns with the correct action. For example, GPT-4o's average performance drops by 34% when misaligned. Additionally, the current trend of "bigger and newer is better" does not hold for the above, where GPT-4o (the current best-performing LLM) suffers the most substantial performance drop. Lastly, we note that while chain-of-thought prompting does reduce the effect of the biases on most models, it is far from solving the problem at the fundamental level.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実世界での利用が増えているが、その戦略能力はほとんど解明されていない。
ゲーム理論は、他のエージェントとの相互作用におけるLSMの意思決定能力を評価するための優れたフレームワークを提供する。
以前の研究では、LSMは慎重に計算されたプロンプトでこれらのタスクを解くことができるが、問題の設定やプロンプトが変わると失敗する。
本研究では,戦略ゲームにおける LLM の動作,Stag Hunt と Prisoner Dilemma について検討し,異なる設定とプロンプト下での性能変動を分析した。
以上の結果から,(1)位置バイアス,(2)支払いバイアス,(3)行動バイアスの少なくとも1つが評価された。
その結果,ゲーム構成が影響するバイアスと一致していない場合,LLMの性能は低下することがわかった。
パフォーマンスは正しいアクションの選択に基づいて評価される。
アライメント(Alignment)とは、LLMのバイアスが正しい動作と一致しているかどうかをいう。
例えば、GPT-4oの平均性能は、不一致時に34%低下する。
さらに、GPT-4o(現在の最高の性能のLCM)が最大の性能低下を被る「より大きく新しいもの」という現在の傾向は、上記のようには保たない。
最後に、チェーン・オブ・ソート・プロンプトは、ほとんどのモデルにおけるバイアスの影響を減少させるが、根本的なレベルでの問題解決には程遠いことに留意する。
関連論文リスト
- Social Bias Evaluation for Large Language Models Requires Prompt Variations [38.91306092184724]
大規模言語モデル(LLM)は、かなりの社会的偏見を示す。
本稿では,高速変動変化におけるLDMの感度について検討する。
LLMは、そのプロンプトによって引き起こされる社会的偏見と性能のトレードオフがあることが示される。
論文 参考訳(メタデータ) (2024-07-03T14:12:04Z) - Can Many-Shot In-Context Learning Help Long-Context LLM Judges? See More, Judge Better! [14.906150451947443]
我々は,GPT-4o-as-a-Judgeを単一回答グレーディングで支援するために,マルチショットインコンテキストプロンプトの2つのバージョンを提案し,検討する。
設計したプロンプトに基づいて,文脈内サンプルの数が判定結果の一貫性と品質に与える影響について検討する。
GPT-4o-as-a-Judgeの相互比較に隠されたシンボルバイアスを明らかにし、その軽減のための単純かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-17T15:11:58Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs [6.090496490133132]
LLMをロールプレイングシナリオに組み込むことで、バイアスを認識し緩和する能力が向上することがわかった。
本稿では,フィードバックを代替する新たなバイアス緩和手法であるReinforcement Learning from Multi-role Debates as Feedback (RLDF)を提案する。
論文 参考訳(メタデータ) (2024-04-15T22:18:50Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
本研究では,ゲーム理論のレンズによる大規模言語モデルの意思決定能力について検討する。
2人以上のエージェントが同時に参加するゲームに特化しています。
我々は,8つの古典的マルチエージェントゲームを含むGAMA-Benchというフレームワークを紹介した。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Self-Supervised Position Debiasing for Large Language Models [39.261233221850155]
大規模言語モデル(LLM)における位置バイアスを軽減するための自己教師型位置偏差検出(SOD)フレームワークを提案する。
8つのデータセットと5つのタスクの実験により、SODは3つのタイプの位置バイアスを緩和する既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-01-02T14:12:41Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。