論文の概要: On Bits and Bandits: Quantifying the Regret-Information Trade-off
- arxiv url: http://arxiv.org/abs/2405.16581v2
- Date: Thu, 5 Sep 2024 11:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 02:44:29.131440
- Title: On Bits and Bandits: Quantifying the Regret-Information Trade-off
- Title(参考訳): ビットと帯域について:レグレット情報トレードオフの定量化
- Authors: Itai Shufaro, Nadav Merlis, Nir Weinberger, Shie Mannor,
- Abstract要約: インタラクティブな意思決定タスクでは、情報は直接のインタラクション、間接的なフィードバックの受信、および外部の知識のあるソースから取得することができる。
ビット単位で測定された外部ソースからの情報は、後悔と引き換えに、報酬で測定できることを示す。
エージェントが蓄積する情報に依存する、最初のベイズ的後悔の低い境界を導入する。
- 参考スコア(独自算出の注目度): 62.64904903955711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In interactive decision-making tasks, information can be acquired by direct interactions, through receiving indirect feedback, and from external knowledgeable sources. We examine the trade-off between the information an agent accumulates and the regret it suffers. We show that information from external sources, measured in bits, can be traded off for regret, measured in reward. We invoke information-theoretic methods for obtaining regret lower bounds, that also allow us to easily re-derive several known lower bounds. We then generalize a variety of interactive decision-making tasks with external information to a new setting. Using this setting, we introduce the first Bayesian regret lower bounds that depend on the information an agent accumulates. These lower bounds also prove the near-optimality of Thompson sampling for Bayesian problems. Finally, we demonstrate the utility of these bounds in improving the performance of a question-answering task with large language models, allowing us to obtain valuable insights.
- Abstract(参考訳): インタラクティブな意思決定タスクでは、情報は直接のインタラクション、間接的なフィードバックの受信、および外部の知識のあるソースから取得することができる。
エージェントが蓄積する情報と、それが苦しむ後悔の間のトレードオフを検討する。
ビット単位で測定された外部ソースからの情報は、後悔と引き換えに、報酬で測定できることを示す。
我々は,いくつかの既知の下界を容易に導出できるような,後悔の少ない下界を得るための情報理論的手法を考案する。
次に、外部情報を用いた様々な対話型意思決定タスクを新しい設定に一般化する。
この設定を用いて、エージェントが蓄積する情報に依存する最初のベイズ後悔の低い境界を導入する。
これらの下界はまた、ベイズ問題に対するトンプソンサンプリングのほぼ最適性を証明している。
最後に,これらの境界が大規模言語モデルを用いた質問応答タスクの性能向上に有効であることを示す。
関連論文リスト
- Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - Language Models Can Reduce Asymmetry in Information Markets [100.38786498942702]
我々は、言語モデルを利用した知的エージェントが外部参加者に代わって情報を売買する、オープンソースのシミュレートされたデジタルマーケットプレースを紹介した。
このマーケットプレースを実現する中心的なメカニズムはエージェントの二重機能であり、特権情報の品質を評価する能力を持つと同時に、忘れる能力も備えている。
適切に行動するためには、エージェントは合理的な判断をし、生成されたサブクエリを通じて市場を戦略的に探索し、購入した情報から回答を合成する必要がある。
論文 参考訳(メタデータ) (2024-03-21T14:48:37Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。
エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。
引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (2023-12-15T18:20:15Z) - Remote Contextual Bandits [18.40166098572039]
遠隔コンテキスト型マルチアームバンディット(CMAB)問題を考える。
意思決定者は、状況と報酬を観察するが、エージェントが行う行動は、レート制限された通信チャネルを介して伝達しなければならない。
エージェントの数を無限大にすることで,この問題の基本的な情報理論的限界について検討し,トンプソンサンプリング戦略を採用する際に達成された後悔について検討する。
論文 参考訳(メタデータ) (2022-02-10T17:31:20Z) - Transfer in Reinforcement Learning via Regret Bounds for Learning Agents [2.023315598404668]
エージェントが観察結果を共有すると、すべてのエージェントの完全な後悔は$sqrtaleph$でより小さくなる。
この結果は,複数エージェント設定における後悔を考慮すれば,伝達学習における観測結果の共有の利点に理論的制約を与えることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T18:10:21Z) - Online Transfer Learning: Negative Transfer and Effect of Prior
Knowledge [6.193838300896449]
ターゲットサンプルが順次到着している間に、ソースサンプルがオフラインの方法で与えられるオンライン転送学習の問題を研究します。
我々は,オンライン転送学習問題の期待後悔を定義し,情報理論量を用いて後悔の上限を与える。
例えば、導出境界は小さなサンプルサイズであっても正確である。
論文 参考訳(メタデータ) (2021-05-04T12:12:14Z) - Multi-Armed Bandits with Local Differential Privacy [32.538737981996405]
バンディットシステムでは、報酬は個人の情報を含むユーザーの活動を指すことがある。
与えられた LDP 保証を用いて,MAB アルゴリズムの高次および低次境界について検討する。
我々は、下限を証明し、後悔の上限が下限を一定要素まで一致させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-06T23:36:20Z) - Amnesic Probing: Behavioral Explanation with Amnesic Counterfactuals [53.484562601127195]
調査結果から行動学的結論を推測できない点を指摘する。
我々は、どの情報がエンコードされているかではなく、その情報がどのように使われているかに焦点を当てた代替手段を提供する。
論文 参考訳(メタデータ) (2020-06-01T15:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。