論文の概要: Beyond Numeric Awards: In-Context Dueling Bandits with LLM Agents
- arxiv url: http://arxiv.org/abs/2407.01887v1
- Date: Tue, 2 Jul 2024 02:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 17:03:34.750060
- Title: Beyond Numeric Awards: In-Context Dueling Bandits with LLM Agents
- Title(参考訳): Beyond Numeric Awards: LLMエージェントによるインコンテキストデュエリングバンド
- Authors: Fanzeng Xia, Hao Liu, Yisong Yue, Tongxin Li,
- Abstract要約: 文脈内意思決定は、人工知能の重要な能力である。
本稿では,Dueling Bandits (DB) の文脈における意思決定者としてのLarge Language Models (LLMs) の性能について検討する。
- 参考スコア(独自算出の注目度): 25.825941077332182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context decision-making is an important capability of artificial general intelligence, which Large Language Models (LLMs) have effectively demonstrated in various scenarios. However, LLMs often face challenges when dealing with numerical contexts, and limited attention has been paid to evaluating their performance through preference feedback generated by the environment. This paper investigates the performance of LLMs as decision-makers in the context of Dueling Bandits (DB). We first evaluate the performance of LLMs by comparing GPT-3.5-Turbo, GPT-4, and GPT-4-Turbo against established DB algorithms. Our results reveal that LLMs, particularly GPT-4 Turbo, quickly identify the Condorcet winner, thus outperforming existing state-of-the-art algorithms in terms of weak regret. Nevertheless, LLMs struggle to converge even when explicitly prompted to do so, and are sensitive to prompt variations. To overcome these issues, we introduce an LLM-augmented algorithm, IF-Enhanced LLM, which takes advantage of both in-context decision-making capabilities of LLMs and theoretical guarantees inherited from classic DB algorithms. The design of such an algorithm sheds light on how to enhance trustworthiness for LLMs used in decision-making tasks where performance robustness matters. We show that IF-Enhanced LLM has theoretical guarantees on both weak and strong regret. Our experimental results validate that IF-Enhanced LLM is robust even with noisy and adversarial prompts.
- Abstract(参考訳): インコンテキスト意思決定は,多言語モデル(LLM)が様々なシナリオで効果的に実証した,汎用人工知能の重要な能力である。
しかし、LLMは数値的な文脈を扱う際に問題に直面することが多く、環境によって生成される好みのフィードバックを通じて性能を評価することには注意が払われている。
本稿では,Dueling Bandits (DB) の文脈における意思決定者としてのLCMの性能について検討する。
GPT-3.5-Turbo, GPT-4, GPT-4-Turboを既存のDBアルゴリズムと比較し, LLMの性能評価を行った。
以上の結果から,LPM,特にGPT-4 Turboはコンドルセットの勝者を迅速に同定し,現状のアルゴリズムよりも弱い後悔度で優れた結果を得た。
それでも、LSMは明示的にそうするように指示しても収束に苦慮し、変化を促すのに敏感である。
これらの問題を克服するために,従来のDBアルゴリズムから継承した理論的保証と,LLMの文脈内決定能力の両面を活かしたIF-Enhanced LLMアルゴリズムを導入する。
このようなアルゴリズムの設計は、性能の堅牢性が重要な意思決定タスクに使用されるLCMの信頼性を高める方法に光を当てている。
IF強化LDMは, 弱い後悔と強い後悔の両方に対して理論的に保証されていることを示す。
IF強化LDMは雑音や逆方向のプロンプトでも頑健であることを確認した。
関連論文リスト
- LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。
我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文 参考訳(メタデータ) (2024-10-06T21:20:06Z) - UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。
これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。
また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-18T16:50:38Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - Enabling Weak LLMs to Judge Response Reliability via Meta Ranking [38.63721941742435]
我々は、$textitMeta Ranking$ (MR) と呼ばれるクロスクエリベースの新しい手法を提案する。
MRは、ターゲットクエリ-レスポンスペアを複数の参照クエリ-レスポンスペアにペアでランク付けすることで、信頼性を評価する。
MRはモデルカスケーディングとインストラクションチューニングの2つの実用的応用において、強力なLLMの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-19T13:57:55Z) - NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language
Models via Complexity Classes [32.154637177467684]
NPHardEvalは、900の質問の幅広い範囲にわたって、LLM(Large Language Models)の推論能力を評価するように設計されている。
NP-ハード複雑性クラス以下の幅広い複雑性クラスを表現するために慎重に選択される。
データポイントを毎月更新する動的更新メカニズムで設計されている。
論文 参考訳(メタデータ) (2023-12-22T18:07:44Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。