Fugu-MT 論文翻訳(概要): On Bits and Bandits: Quantifying the Regret-Information Trade-off

論文の概要: On Bits and Bandits: Quantifying the Regret-Information Trade-off

arxiv url: http://arxiv.org/abs/2405.16581v3
Date: Mon, 07 Oct 2024 13:12:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 01:14:38.757625
Title: On Bits and Bandits: Quantifying the Regret-Information Trade-off
Title（参考訳）: ビットと帯域について:レグレット情報トレードオフの定量化
Authors: Itai Shufaro, Nadav Merlis, Nir Weinberger, Shie Mannor,
Abstract要約: エージェントが蓄積する情報と、それが苦しむ後悔の間のトレードオフについて検討する。エージェントが蓄積する情報に依存する、最初のベイズ的後悔の低い境界を導入する。また,エージェントが蓄積する情報量を用いて,後悔の上限を証明した。
参考スコア（独自算出の注目度）: 62.64904903955711
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In many sequential decision problems, an agent performs a repeated task. He then suffers regret and obtains information that he may use in the following rounds. However, sometimes the agent may also obtain information and avoid suffering regret by querying external sources. We study the trade-off between the information an agent accumulates and the regret it suffers. We invoke information-theoretic methods for obtaining regret lower bounds, that also allow us to easily re-derive several known lower bounds. We introduce the first Bayesian regret lower bounds that depend on the information an agent accumulates. We also prove regret upper bounds using the amount of information the agent accumulates. These bounds show that information measured in bits, can be traded off for regret, measured in reward. Finally, we demonstrate the utility of these bounds in improving the performance of a question-answering task with large language models, allowing us to obtain valuable insights.
Abstract（参考訳）: 多くのシーケンシャルな決定問題において、エージェントは繰り返しタスクを実行する。その後、後悔し、次のラウンドで使用する可能性のある情報を得る。しかし、時にはエージェントが情報を取得して、外部ソースを問い合わせることで後悔を避けることもある。エージェントが蓄積する情報と、それが苦しむ後悔の間のトレードオフについて検討する。我々は,いくつかの既知の下界を容易に導出できるような,後悔の少ない下界を得るための情報理論的手法を考案する。エージェントが蓄積する情報に依存する、最初のベイズ的後悔の低い境界を導入する。また,エージェントが蓄積する情報量を用いて,後悔の上限を証明した。これらの境界は、ビットで測定された情報は、後悔のために交換され、報酬で測定されることを示している。最後に,これらの境界が大規模言語モデルを用いた質問応答タスクの性能向上に有効であることを示す。

関連論文リスト

PropMEND: Hypernetworks for Knowledge Propagation in LLMs [82.99849359892112]
本稿では,PropMENDという,ハイパーネットワークに基づく知識伝播手法を提案する。インジェクションされた事実に回答が明記されていないマルチホップ質問に対して,ほぼ2倍の精度で回答を提示する。我々はまた、ハイパーネットワークの一般化を評価するために、新しいデータセットである Controlled RippleEdit も導入した。
論文参考訳（メタデータ） (2025-06-10T15:44:19Z)
Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。 MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文参考訳（メタデータ） (2024-06-06T16:18:20Z)
Language Models Can Reduce Asymmetry in Information Markets [100.38786498942702]
我々は、言語モデルを利用した知的エージェントが外部参加者に代わって情報を売買する、オープンソースのシミュレートされたデジタルマーケットプレースを紹介した。このマーケットプレースを実現する中心的なメカニズムはエージェントの二重機能であり、特権情報の品質を評価する能力を持つと同時に、忘れる能力も備えている。適切に行動するためには、エージェントは合理的な判断をし、生成されたサブクエリを通じて市場を戦略的に探索し、購入した情報から回答を合成する必要がある。
論文参考訳（メタデータ） (2024-03-21T14:48:37Z)
Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文参考訳（メタデータ） (2024-02-23T06:27:12Z)
ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文参考訳（メタデータ） (2023-12-15T18:20:15Z)
Remote Contextual Bandits [18.40166098572039]
遠隔コンテキスト型マルチアームバンディット(CMAB)問題を考える。意思決定者は、状況と報酬を観察するが、エージェントが行う行動は、レート制限された通信チャネルを介して伝達しなければならない。エージェントの数を無限大にすることで,この問題の基本的な情報理論的限界について検討し,トンプソンサンプリング戦略を採用する際に達成された後悔について検討する。
論文参考訳（メタデータ） (2022-02-10T17:31:20Z)
Transfer in Reinforcement Learning via Regret Bounds for Learning Agents [2.023315598404668]
エージェントが観察結果を共有すると、すべてのエージェントの完全な後悔は$sqrtaleph$でより小さくなる。この結果は,複数エージェント設定における後悔を考慮すれば,伝達学習における観測結果の共有の利点に理論的制約を与えることができることを示す。
論文参考訳（メタデータ） (2022-02-02T18:10:21Z)
Online Transfer Learning: Negative Transfer and Effect of Prior Knowledge [6.193838300896449]
ターゲットサンプルが順次到着している間に、ソースサンプルがオフラインの方法で与えられるオンライン転送学習の問題を研究します。我々は,オンライン転送学習問題の期待後悔を定義し,情報理論量を用いて後悔の上限を与える。例えば、導出境界は小さなサンプルサイズであっても正確である。
論文参考訳（メタデータ） (2021-05-04T12:12:14Z)
Multi-Armed Bandits with Local Differential Privacy [32.538737981996405]
バンディットシステムでは、報酬は個人の情報を含むユーザーの活動を指すことがある。与えられた LDP 保証を用いて,MAB アルゴリズムの高次および低次境界について検討する。我々は、下限を証明し、後悔の上限が下限を一定要素まで一致させるアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-06T23:36:20Z)
Amnesic Probing: Behavioral Explanation with Amnesic Counterfactuals [53.484562601127195]
調査結果から行動学的結論を推測できない点を指摘する。我々は、どの情報がエンコードされているかではなく、その情報がどのように使われているかに焦点を当てた代替手段を提供する。
論文参考訳（メタデータ） (2020-06-01T15:00:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。