論文の概要: Do LLM Agents Have Regret? A Case Study in Online Learning and Games
- arxiv url: http://arxiv.org/abs/2403.16843v1
- Date: Mon, 25 Mar 2024 15:04:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:54:11.374334
- Title: Do LLM Agents Have Regret? A Case Study in Online Learning and Games
- Title(参考訳): LLMエージェントはリフレクトしているか?オンライン学習とゲームにおけるケーススタディ
- Authors: Chanwoo Park, Xiangyu Liu, Asuman Ozdaglar, Kaiqing Zhang,
- Abstract要約: 大規模言語モデル(LLM)は(対話的な)意思決定にますます採用されている。
オンライン学習とゲーム理論のベンチマーク決定設定において,それらの相互作用について検討する。
本稿では,教師付きプレトレーニングの損失とは対照的に,教師付き行動のラベルを必要としない新しいインフントレーニングの損失を提案する。
- 参考スコア(独自算出の注目度): 30.377709765198592
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) have been increasingly employed for (interactive) decision-making, via the development of LLM-based autonomous agents. Despite their emerging successes, the performance of LLM agents in decision-making has not been fully investigated through quantitative metrics, especially in the multi-agent setting when they interact with each other, a typical scenario in real-world LLM-agent applications. To better understand the limits of LLM agents in these interactive environments, we propose to study their interactions in benchmark decision-making settings in online learning and game theory, through the performance metric of \emph{regret}. We first empirically study the {no-regret} behaviors of LLMs in canonical (non-stationary) online learning problems, as well as the emergence of equilibria when LLM agents interact through playing repeated games. We then provide some theoretical insights into the no-regret behaviors of LLM agents, under certain assumptions on the supervised pre-training and the rationality model of human decision-makers who generate the data. Notably, we also identify (simple) cases where advanced LLMs such as GPT-4 fail to be no-regret. To promote the no-regret behaviors, we propose a novel \emph{unsupervised} training loss of \emph{regret-loss}, which, in contrast to the supervised pre-training loss, does not require the labels of (optimal) actions. We then establish the statistical guarantee of generalization bound for regret-loss minimization, followed by the optimization guarantee that minimizing such a loss may automatically lead to known no-regret learning algorithms. Our further experiments demonstrate the effectiveness of our regret-loss, especially in addressing the above ``regrettable'' cases.
- Abstract(参考訳): 大規模言語モデル(LLM)は、LLMベースの自律エージェントの開発を通じて、(対話的な)意思決定にますます採用されている。
彼らの成功にもかかわらず、意思決定におけるLLMエージェントの性能は、特に実世界のLLMエージェントアプリケーションにおける典型的なシナリオである、相互に相互作用するマルチエージェント設定において、定量化によって完全には研究されていない。
対話型環境におけるLLMエージェントの限界をよりよく理解するために,オンライン学習とゲーム理論におけるベンチマーク決定設定におけるそれらの相互作用について,emph{regret}のパフォーマンス指標を用いて検討することを提案する。
まず,LLMエージェントが繰り返しプレイすることで対話する際の平衡の出現とともに,標準的(定常的でない)オンライン学習問題における LLM の {no-regret} 挙動を実証的に研究した。
次に、データを生成する人間の意思決定者の教師付き事前学習と合理性モデルについて、LLMエージェントの非回帰行動に関する理論的知見を提供する。
また, GPT-4 などの先進性 LLM が非再発性でない (単純) 症例も同定した。
本研究は,非学習行動を促進するために,教師付き事前学習障害とは対照的に,(最適)行動のラベルを必要としない,新規なemph{unsupervised}トレーニング損失のemph{regret-loss}を提案する。
そして,この損失を最小限に抑えることで,未知の学習アルゴリズムを自動生成する,という最適化の保証を行ない,後悔の少ない最小化に縛られる一般化の統計的保証を確立する。
我々のさらなる実験は、特に上記の『レグレタブル』ケースに対処する上で、後悔の欠如の有効性を実証するものである。
関連論文リスト
- Can large language models explore in-context? [87.49311128190143]
単純なマルチアームバンディット環境において,エージェントとして大規模言語モデルをデプロイする。
モデルが実質的な介入なしには、探索にしっかりと関わっていないことが分かっています。
論文 参考訳(メタデータ) (2024-03-22T17:50:43Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
本稿では,より小型のRLエージェントが,弱体化している有用なスキルを学習するのを支援するために,EnvGenを提案する。
EnvGenで訓練された小さなRLエージェントは、GPT-4エージェントを含むSOTAメソッドよりも優れており、長い水平タスクをかなり高速に学習することができる。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - True Knowledge Comes from Practice: Aligning LLMs with Embodied
Environments via Reinforcement Learning [37.10401435242991]
大規模言語モデル(LLM)は、環境とのLLMにおける知識のミスアライメントにより、単純な意思決定タスクの解決に失敗することが多い。
本稿では,LSMを意思決定エージェントとして展開する新しいフレームワークであるTWOSOMEを提案する。
論文 参考訳(メタデータ) (2024-01-25T13:03:20Z) - Reinforcement Learning from LLM Feedback to Counteract Goal
Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。
目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。
本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文 参考訳(メタデータ) (2024-01-14T01:09:48Z) - Making Harmful Behaviors Unlearnable for Large Language Models [50.44915524846857]
大規模言語モデル(LLM)は、様々な領域における汎用AIアシスタントとして大きな可能性を示している。
LLMは、暗黙的または明示的な有害な内容を含むことが多いため、有害なアシスタントに容易に微調整できる。
本稿では, 微調整過程において有害な動作を学習不能にする, 制御可能なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-02T09:18:21Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。