論文の概要: LLMs-augmented Contextual Bandit
- arxiv url: http://arxiv.org/abs/2311.02268v1
- Date: Fri, 3 Nov 2023 23:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 18:33:09.911311
- Title: LLMs-augmented Contextual Bandit
- Title(参考訳): LLMを付加したコンテキスト帯域
- Authors: Ali Baheri, Cecilia O. Alm
- Abstract要約: 本稿では,大規模言語モデル (LLM) と文脈的バンディットフレームワークとの新たな統合を提案する。
合成データセットに関する予備的な結果は、このアプローチの可能性を示している。
- 参考スコア(独自算出の注目度): 7.578368459974475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual bandits have emerged as a cornerstone in reinforcement learning,
enabling systems to make decisions with partial feedback. However, as contexts
grow in complexity, traditional bandit algorithms can face challenges in
adequately capturing and utilizing such contexts. In this paper, we propose a
novel integration of large language models (LLMs) with the contextual bandit
framework. By leveraging LLMs as an encoder, we enrich the representation of
the context, providing the bandit with a denser and more informative view.
Preliminary results on synthetic datasets demonstrate the potential of this
approach, showing notable improvements in cumulative rewards and reductions in
regret compared to traditional bandit algorithms. This integration not only
showcases the capabilities of LLMs in reinforcement learning but also opens the
door to a new era of contextually-aware decision systems.
- Abstract(参考訳): コンテキストバンディットは強化学習の基礎として登場し、システムが部分的なフィードバックで意思決定を可能にする。
しかし、コンテキストが複雑化するにつれて、従来のバンディットアルゴリズムはそのようなコンテキストを適切に捉え、活用する上で困難に直面することがある。
本稿では,大規模言語モデル(LLM)と文脈的バンディットフレームワークとの新たな統合を提案する。
LLMをエンコーダとして活用することにより、コンテキストの表現を豊かにし、バンディットにより密でより情報的なビューを提供する。
合成データセットの予備的な結果はこのアプローチの可能性を示し、従来のバンディットアルゴリズムと比較して累積報酬と後悔の削減が顕著に改善されたことを示している。
この統合は強化学習におけるllmの能力を示すだけでなく、文脈認識型意思決定システムの新しい時代への扉を開く。
関連論文リスト
- Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval [23.94611751368491]
本稿では,大言語モデル(LLM)を一般知識の統合に活用し,擬似イベントを時間的コンテンツ配信の先駆けとして活用する可能性について検討する。
これらの制限を克服するために,デコーダの代わりにLLMエンコーダを提案する。
LLMエンコーダを既存のVMRアーキテクチャ、特に核融合モジュールに組み込むための一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-21T04:39:06Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Jump Starting Bandits with LLM-Generated Prior Knowledge [5.344012058238259]
大規模言語モデルは、オンライン学習の後悔を減らすために、文脈的マルチアームバンディットを飛躍的に開始できることを示す。
そこで本稿では,LLMに対して,バンドイットに近似した人選好の事前学習データセットを作成するように促すことにより,コンテキスト的帯域幅を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-27T16:52:19Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - Unified Risk Analysis for Weakly Supervised Learning [65.75775694815172]
弱教師付き学習のための包括的理解と統一的方法論を提供する枠組みを導入する。
フレームワークの定式化コンポーネントは、汚染の観点から、どのように弱い監督が形成されるかの統一的な解釈を提供する。
フレームワークの分析コンポーネントは、汚染除去プロセスと見なされ、リスクの書き直しを行う体系的な方法を提供する。
論文 参考訳(メタデータ) (2023-09-15T07:30:15Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Practical Contextual Bandits with Feedback Graphs [44.76976254893256]
回帰への還元に基づくフィードバックグラフを用いて,文脈的帯域幅に対するアプローチを提案し,解析する。
結果のアルゴリズムは計算学的に実用的であり、確立されたミニマックスレートを達成する。
論文 参考訳(メタデータ) (2023-02-17T00:06:42Z) - Contextual Information-Directed Sampling [35.72522680827013]
情報指向サンプリング(IDS)は近年,データ効率向上学習アルゴリズムとしての可能性を示している。
我々は,2つの文脈的帯域幅問題(グラフフィードバック付きコンテキスト的帯域幅と疎線形コンテキスト的帯域幅)を通してIDS設計について検討する。
条件付きIDSよりもコンテキスト型IDSの利点を実証し,文脈分布を考慮することの重要性を強調した。
論文 参考訳(メタデータ) (2022-05-22T18:08:42Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Stochastic Linear Contextual Bandits with Diverse Contexts [17.35270010828849]
文脈が十分に多様である場合、学習者は、エクスプロイト時に得られた情報を利用して探索過程を短縮できることを示す。
我々はLinUCB-dアルゴリズムを設計し、その後悔する性能を解析するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-03-05T14:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。