論文の概要: GLEE: A Unified Framework and Benchmark for Language-based Economic Environments
- arxiv url: http://arxiv.org/abs/2410.05254v1
- Date: Mon, 7 Oct 2024 17:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 19:57:23.987166
- Title: GLEE: A Unified Framework and Benchmark for Language-based Economic Environments
- Title(参考訳): GLEE: 言語ベースの経済環境のための統一フレームワークとベンチマーク
- Authors: Eilam Shapira, Omer Madmon, Itamar Reinman, Samuel Joseph Amouyal, Roi Reichart, Moshe Tennenholtz,
- Abstract要約: 大規模言語モデル(LLM)は、経済的および戦略的相互作用において大きな可能性を示す。
これらの疑問は、LLMベースのエージェントを実世界のデータ駆動システムに統合することの経済的および社会的意味について重要なものとなっている。
本稿では,2プレイヤー,シーケンシャル,言語ベースのゲームの研究を標準化するためのベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 19.366120861935105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) show significant potential in economic and strategic interactions, where communication via natural language is often prevalent. This raises key questions: Do LLMs behave rationally? Can they mimic human behavior? Do they tend to reach an efficient and fair outcome? What is the role of natural language in the strategic interaction? How do characteristics of the economic environment influence these dynamics? These questions become crucial concerning the economic and societal implications of integrating LLM-based agents into real-world data-driven systems, such as online retail platforms and recommender systems. While the ML community has been exploring the potential of LLMs in such multi-agent setups, varying assumptions, design choices and evaluation criteria across studies make it difficult to draw robust and meaningful conclusions. To address this, we introduce a benchmark for standardizing research on two-player, sequential, language-based games. Inspired by the economic literature, we define three base families of games with consistent parameterization, degrees of freedom and economic measures to evaluate agents' performance (self-gain), as well as the game outcome (efficiency and fairness). We develop an open-source framework for interaction simulation and analysis, and utilize it to collect a dataset of LLM vs. LLM interactions across numerous game configurations and an additional dataset of human vs. LLM interactions. Through extensive experimentation, we demonstrate how our framework and dataset can be used to: (i) compare the behavior of LLM-based agents to human players in various economic contexts; (ii) evaluate agents in both individual and collective performance measures; and (iii) quantify the effect of the economic characteristics of the environments on the behavior of agents.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語によるコミュニケーションが頻繁に普及する経済と戦略的相互作用において、大きな可能性を示す。
LLMは合理的に振る舞うのか?
人間の行動を模倣できるのか?
効率的で公平な結果に達する傾向がありますか?
戦略的相互作用における自然言語の役割とは何か?
経済環境の特性はこれらのダイナミクスにどのように影響するのか?
これらの疑問は、オンライン小売プラットフォームやレコメンデーターシステムといった現実的なデータ駆動システムにLLMベースのエージェントを統合することの経済的および社会的意味について重要なものとなっている。
MLコミュニティは、このようなマルチエージェント環境でLLMの可能性を探求してきたが、様々な仮定、設計選択、評価基準によって、堅牢で有意義な結論を導き出すことは困難である。
そこで,本稿では,2プレイヤー,シーケンシャル,言語ベースのゲームの研究を標準化するためのベンチマークを紹介する。
経済文献に触発されて、エージェントのパフォーマンス(自己獲得)を評価するために、一貫したパラメータ化、自由度、経済対策の3つの基本ファミリーと、ゲーム結果(効率性と公正性)を定義した。
我々は,対話シミュレーションと解析のためのオープンソースフレームワークを開発し,多数のゲーム構成にまたがるLLM対LLMインタラクションのデータセットと,人間対LLMインタラクションのデータセットを収集する。
大規模な実験を通じて、我々のフレームワークとデータセットがどのように使われるかを示します。
i) LLMをベースとしたエージェントの行動と,様々な経済状況における人間選手の行動を比較する。
二 個人的及び集団的パフォーマンス対策における代理人の評価及び
三 環境の経済特性がエージェントの行動に及ぼす影響を定量化する。
関連論文リスト
- Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - Designing Domain-Specific Large Language Models: The Critical Role of Fine-Tuning in Public Opinion Simulation [0.0]
本稿では,英国家庭縦断調査のデータを用いて,大規模言語モデル(LLM)を微調整する手法を提案する。
多様な合成プロファイルをエミュレートすることで、微調整されたモデルは、事前訓練されたバージョンよりも効果的な人口集団間の微妙な差異を捉える。
論文 参考訳(メタデータ) (2024-09-28T10:39:23Z) - LLM economicus? Mapping the Behavioral Biases of LLMs via Utility Theory [20.79199807796242]
ユーティリティ理論は、大きな言語モデルの経済バイアスを評価するためのアプローチである。
現在のLLMの経済行動は、完全に人間的でも、完全に経済的なものでもない。
論文 参考訳(メタデータ) (2024-08-05T19:00:43Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - EconNLI: Evaluating Large Language Models on Economics Reasoning [22.754757518792395]
LLM(Large Language Models)は、経済分析レポートの作成や、財政的なアドバイスを提供するために広く使われている。
経済分野におけるLLMの知識と推論能力を評価するために,新たなデータセット,経済事象に関する自然言語推論(EconNLI)を提案する。
実験の結果, LLMは経済的な推論では洗練されておらず, 誤りや幻覚を生じさせる可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-01T11:58:24Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - Do LLM Agents Exhibit Social Behavior? [5.094340963261968]
State-Understanding-Value-Action (SUVA) は、社会的文脈における応答を体系的に分析するフレームワークである。
最終決定とそれにつながる反応生成プロセスの両方を通じて社会的行動を評価する。
発話に基づく推論がLLMの最終動作を確実に予測できることを実証する。
論文 参考訳(メタデータ) (2023-12-23T08:46:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。