Fugu-MT 論文翻訳(概要): LLMs-augmented Contextual Bandit

論文の概要: LLMs-augmented Contextual Bandit

arxiv url: http://arxiv.org/abs/2311.02268v1
Date: Fri, 3 Nov 2023 23:12:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 18:33:09.911311
Title: LLMs-augmented Contextual Bandit
Title（参考訳）: LLMを付加したコンテキスト帯域
Authors: Ali Baheri, Cecilia O. Alm
Abstract要約: 本稿では,大規模言語モデル (LLM) と文脈的バンディットフレームワークとの新たな統合を提案する。合成データセットに関する予備的な結果は、このアプローチの可能性を示している。
参考スコア（独自算出の注目度）: 7.578368459974475
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Contextual bandits have emerged as a cornerstone in reinforcement learning, enabling systems to make decisions with partial feedback. However, as contexts grow in complexity, traditional bandit algorithms can face challenges in adequately capturing and utilizing such contexts. In this paper, we propose a novel integration of large language models (LLMs) with the contextual bandit framework. By leveraging LLMs as an encoder, we enrich the representation of the context, providing the bandit with a denser and more informative view. Preliminary results on synthetic datasets demonstrate the potential of this approach, showing notable improvements in cumulative rewards and reductions in regret compared to traditional bandit algorithms. This integration not only showcases the capabilities of LLMs in reinforcement learning but also opens the door to a new era of contextually-aware decision systems.
Abstract（参考訳）: コンテキストバンディットは強化学習の基礎として登場し、システムが部分的なフィードバックで意思決定を可能にする。しかし、コンテキストが複雑化するにつれて、従来のバンディットアルゴリズムはそのようなコンテキストを適切に捉え、活用する上で困難に直面することがある。本稿では,大規模言語モデル(LLM)と文脈的バンディットフレームワークとの新たな統合を提案する。 LLMをエンコーダとして活用することにより、コンテキストの表現を豊かにし、バンディットにより密でより情報的なビューを提供する。合成データセットの予備的な結果はこのアプローチの可能性を示し、従来のバンディットアルゴリズムと比較して累積報酬と後悔の削減が顕著に改善されたことを示している。この統合は強化学習におけるllmの能力を示すだけでなく、文脈認識型意思決定システムの新しい時代への扉を開く。

関連論文リスト

CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
CrossWordBenchは、大きな言語モデル(LLM)とLVLM(Large Vision-Language Models)の推論能力を評価するために設計されたベンチマークである。評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。本研究は,現在のLLMとLVLMの推論能力の限界について考察し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文参考訳（メタデータ） (2025-03-30T20:03:36Z)
Teaching Models to Improve on Tape [30.330699770714165]
大きな言語モデル(LLM)は、特定の制約の下でコンテンツを生成するよう促されたときにしばしば苦労する。最近の研究によると、LLMはそのような「修正的フィードバック」の恩恵を受けることができる。本稿では,そのような報酬をモデルに教えるためのRLフレームワークを紹介し,その制約を満たす能力に応じてモデルに報酬を与える。
論文参考訳（メタデータ） (2024-11-03T08:49:55Z)
Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval [23.94611751368491]
本稿では,大言語モデル(LLM)を一般知識の統合に活用し,擬似イベントを時間的コンテンツ配信の先駆けとして活用する可能性について検討する。これらの制限を克服するために,デコーダの代わりにLLMエンコーダを提案する。 LLMエンコーダを既存のVMRアーキテクチャ、特に核融合モジュールに組み込むための一般的なフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-21T04:39:06Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Jump Starting Bandits with LLM-Generated Prior Knowledge [5.344012058238259]
大規模言語モデルは、オンライン学習の後悔を減らすために、文脈的マルチアームバンディットを飛躍的に開始できることを示す。そこで本稿では,LLMに対して,バンドイットに近似した人選好の事前学習データセットを作成するように促すことにより,コンテキスト的帯域幅を求めるアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-27T16:52:19Z)
Sparsity-Guided Holistic Explanation for LLMs with Interpretable Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。 LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文参考訳（メタデータ） (2023-12-22T19:55:58Z)
Improving Factual Consistency of Text Summarization by Adversarially Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。これらの幻覚は、従来の方法による検出が困難である。 LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文参考訳（メタデータ） (2023-10-30T08:40:16Z)
Unified Risk Analysis for Weakly Supervised Learning [65.75775694815172]
弱教師付き学習のための包括的理解と統一的方法論を提供する枠組みを導入する。フレームワークの定式化コンポーネントは、汚染の観点から、どのように弱い監督が形成されるかの統一的な解釈を提供する。フレームワークの分析コンポーネントは、汚染除去プロセスと見なされ、リスクの書き直しを行う体系的な方法を提供する。
論文参考訳（メタデータ） (2023-09-15T07:30:15Z)
Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。 3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文参考訳（メタデータ） (2023-09-01T13:06:50Z)
Practical Contextual Bandits with Feedback Graphs [44.76976254893256]
回帰への還元に基づくフィードバックグラフを用いて,文脈的帯域幅に対するアプローチを提案し,解析する。結果のアルゴリズムは計算学的に実用的であり、確立されたミニマックスレートを達成する。
論文参考訳（メタデータ） (2023-02-17T00:06:42Z)
Instance-Dependent Complexity of Contextual Bandits and Reinforcement Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文参考訳（メタデータ） (2020-10-07T01:33:06Z)
Stochastic Linear Contextual Bandits with Diverse Contexts [17.35270010828849]
文脈が十分に多様である場合、学習者は、エクスプロイト時に得られた情報を利用して探索過程を短縮できることを示す。我々はLinUCB-dアルゴリズムを設計し、その後悔する性能を解析するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2020-03-05T14:51:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。