論文の概要: On Bits and Bandits: Quantifying the Regret-Information Trade-off
- arxiv url: http://arxiv.org/abs/2405.16581v3
- Date: Mon, 07 Oct 2024 13:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:11:14.312244
- Title: On Bits and Bandits: Quantifying the Regret-Information Trade-off
- Title(参考訳): ビットと帯域について:レグレット情報トレードオフの定量化
- Authors: Itai Shufaro, Nadav Merlis, Nir Weinberger, Shie Mannor,
- Abstract要約: エージェントが蓄積する情報と、それが苦しむ後悔の間のトレードオフについて検討する。
エージェントが蓄積する情報に依存する、最初のベイズ的後悔の低い境界を導入する。
また,エージェントが蓄積する情報量を用いて,後悔の上限を証明した。
- 参考スコア(独自算出の注目度): 62.64904903955711
- License:
- Abstract: In many sequential decision problems, an agent performs a repeated task. He then suffers regret and obtains information that he may use in the following rounds. However, sometimes the agent may also obtain information and avoid suffering regret by querying external sources. We study the trade-off between the information an agent accumulates and the regret it suffers. We invoke information-theoretic methods for obtaining regret lower bounds, that also allow us to easily re-derive several known lower bounds. We introduce the first Bayesian regret lower bounds that depend on the information an agent accumulates. We also prove regret upper bounds using the amount of information the agent accumulates. These bounds show that information measured in bits, can be traded off for regret, measured in reward. Finally, we demonstrate the utility of these bounds in improving the performance of a question-answering task with large language models, allowing us to obtain valuable insights.
- Abstract(参考訳): 多くのシーケンシャルな決定問題において、エージェントは繰り返しタスクを実行する。
その後、後悔し、次のラウンドで使用する可能性のある情報を得る。
しかし、時にはエージェントが情報を取得して、外部ソースを問い合わせることで後悔を避けることもある。
エージェントが蓄積する情報と、それが苦しむ後悔の間のトレードオフについて検討する。
我々は,いくつかの既知の下界を容易に導出できるような,後悔の少ない下界を得るための情報理論的手法を考案する。
エージェントが蓄積する情報に依存する、最初のベイズ的後悔の低い境界を導入する。
また,エージェントが蓄積する情報量を用いて,後悔の上限を証明した。
これらの境界は、ビットで測定された情報は、後悔のために交換され、報酬で測定されることを示している。
最後に,これらの境界が大規模言語モデルを用いた質問応答タスクの性能向上に有効であることを示す。
関連論文リスト
- Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。
エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。
引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (2023-12-15T18:20:15Z) - Exploiting Correlated Auxiliary Feedback in Parameterized Bandits [56.84649080789685]
そこで本研究では,学習者が追加の補助的フィードバックを観察できるパラメータ化帯域問題の新たな変種について検討する。
補助的なフィードバックは、ユーザのサービス評価(リワード)を観察し、サービス提供時間(補助的なフィードバック)などの追加情報を収集するオンラインプラットフォームなど、多くの現実的なアプリケーションで容易に利用可能である。
論文 参考訳(メタデータ) (2023-11-05T17:27:06Z) - Lifting the Information Ratio: An Information-Theoretic Analysis of
Thompson Sampling for Contextual Bandits [17.470829701201435]
我々は,RussoとVan Royの情報理論的視点を,情報比という新たな概念を導入して,文脈設定に適用する。
これにより、非常に単純な証明を通じて、先行分布のエントロピーの観点から、後悔を束縛することができる。
興味深いケースは、d-次元パラメータを持つロジスティック・バンディット、K アクション、リプシッツ・ロジットであり、そこでは、シグモイドリンク関数の最小勾配に依存しない$widetildeO(sqrtdKT)$ regret上界を提供する。
論文 参考訳(メタデータ) (2022-05-27T12:04:07Z) - Remote Contextual Bandits [18.40166098572039]
遠隔コンテキスト型マルチアームバンディット(CMAB)問題を考える。
意思決定者は、状況と報酬を観察するが、エージェントが行う行動は、レート制限された通信チャネルを介して伝達しなければならない。
エージェントの数を無限大にすることで,この問題の基本的な情報理論的限界について検討し,トンプソンサンプリング戦略を採用する際に達成された後悔について検討する。
論文 参考訳(メタデータ) (2022-02-10T17:31:20Z) - Role of collective information in networks of quantum operating agents [0.0]
エージェントのネットワークは、決定過程が量子決定理論によって記述されると考えられる。
これら3つのコントリビューション間の相互作用の結果、いくつかの選択肢の選択プロセスはマルチモーダルである。
すべてのエージェントに共通する情報領域は、確率の時間的振る舞いの急激な変動を滑らかにする傾向がある。
論文 参考訳(メタデータ) (2022-01-26T15:35:25Z) - A Bayesian Framework for Information-Theoretic Probing [51.98576673620385]
我々は、探索は相互情報を近似するものとみなすべきであると論じる。
これは、表現が元の文とターゲットタスクに関する全く同じ情報をエンコードしているというかなり直感的な結論を導いた。
本稿では,ベイズ的相互情報(Bayesian mutual information)と呼ぶものを測定するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-08T18:08:36Z) - A Bit Better? Quantifying Information for Bandit Learning [24.943571034827297]
情報比率は、エージェントが探索と搾取のバランスをとる効果を評価するためのアプローチを提供する。
最近の研究は、特により厳しい後悔の境界に到達するためにバンディット学習アルゴリズムの分析に使用するための代替情報対策の考察に触発されました。
このような代替案による情報の定量化が,情報指向サンプリングの実現性能を向上させるかどうかを検討する。
論文 参考訳(メタデータ) (2021-02-18T17:16:04Z) - Multi-Armed Bandits with Local Differential Privacy [32.538737981996405]
バンディットシステムでは、報酬は個人の情報を含むユーザーの活動を指すことがある。
与えられた LDP 保証を用いて,MAB アルゴリズムの高次および低次境界について検討する。
我々は、下限を証明し、後悔の上限が下限を一定要素まで一致させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-06T23:36:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。