論文の概要: LLMs-augmented Contextual Bandit
- arxiv url: http://arxiv.org/abs/2311.02268v1
- Date: Fri, 3 Nov 2023 23:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 18:33:09.911311
- Title: LLMs-augmented Contextual Bandit
- Title(参考訳): LLMを付加したコンテキスト帯域
- Authors: Ali Baheri, Cecilia O. Alm
- Abstract要約: 本稿では,大規模言語モデル (LLM) と文脈的バンディットフレームワークとの新たな統合を提案する。
合成データセットに関する予備的な結果は、このアプローチの可能性を示している。
- 参考スコア(独自算出の注目度): 7.578368459974475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual bandits have emerged as a cornerstone in reinforcement learning,
enabling systems to make decisions with partial feedback. However, as contexts
grow in complexity, traditional bandit algorithms can face challenges in
adequately capturing and utilizing such contexts. In this paper, we propose a
novel integration of large language models (LLMs) with the contextual bandit
framework. By leveraging LLMs as an encoder, we enrich the representation of
the context, providing the bandit with a denser and more informative view.
Preliminary results on synthetic datasets demonstrate the potential of this
approach, showing notable improvements in cumulative rewards and reductions in
regret compared to traditional bandit algorithms. This integration not only
showcases the capabilities of LLMs in reinforcement learning but also opens the
door to a new era of contextually-aware decision systems.
- Abstract(参考訳): コンテキストバンディットは強化学習の基礎として登場し、システムが部分的なフィードバックで意思決定を可能にする。
しかし、コンテキストが複雑化するにつれて、従来のバンディットアルゴリズムはそのようなコンテキストを適切に捉え、活用する上で困難に直面することがある。
本稿では,大規模言語モデル(LLM)と文脈的バンディットフレームワークとの新たな統合を提案する。
LLMをエンコーダとして活用することにより、コンテキストの表現を豊かにし、バンディットにより密でより情報的なビューを提供する。
合成データセットの予備的な結果はこのアプローチの可能性を示し、従来のバンディットアルゴリズムと比較して累積報酬と後悔の削減が顕著に改善されたことを示している。
この統合は強化学習におけるllmの能力を示すだけでなく、文脈認識型意思決定システムの新しい時代への扉を開く。
関連論文リスト
- Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - Unified Risk Analysis for Weakly Supervised Learning [65.75775694815172]
弱教師付き学習のための包括的理解と統一的方法論を提供する枠組みを導入する。
フレームワークの定式化コンポーネントは、汚染の観点から、どのように弱い監督が形成されるかの統一的な解釈を提供する。
フレームワークの分析コンポーネントは、汚染除去プロセスと見なされ、リスクの書き直しを行う体系的な方法を提供する。
論文 参考訳(メタデータ) (2023-09-15T07:30:15Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Practical Contextual Bandits with Feedback Graphs [44.76976254893256]
回帰への還元に基づくフィードバックグラフを用いて,文脈的帯域幅に対するアプローチを提案し,解析する。
結果のアルゴリズムは計算学的に実用的であり、確立されたミニマックスレートを達成する。
論文 参考訳(メタデータ) (2023-02-17T00:06:42Z) - Contextual Information-Directed Sampling [35.72522680827013]
情報指向サンプリング(IDS)は近年,データ効率向上学習アルゴリズムとしての可能性を示している。
我々は,2つの文脈的帯域幅問題(グラフフィードバック付きコンテキスト的帯域幅と疎線形コンテキスト的帯域幅)を通してIDS設計について検討する。
条件付きIDSよりもコンテキスト型IDSの利点を実証し,文脈分布を考慮することの重要性を強調した。
論文 参考訳(メタデータ) (2022-05-22T18:08:42Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Online learning with Corrupted context: Corrupted Contextual Bandits [19.675277307158435]
我々は文脈的盗賊問題の新しい変種を考える。
この問題は、臨床試験や広告レコメンデーションなどのオンライン設定によって動機付けられている。
本稿では,従来のマルチアームバンディット機構と標準的なコンテキスト的バンディットアプローチを組み合わせることを提案する。
論文 参考訳(メタデータ) (2020-06-26T19:53:26Z) - Stochastic Linear Contextual Bandits with Diverse Contexts [17.35270010828849]
文脈が十分に多様である場合、学習者は、エクスプロイト時に得られた情報を利用して探索過程を短縮できることを示す。
我々はLinUCB-dアルゴリズムを設計し、その後悔する性能を解析するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-03-05T14:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。