論文の概要: All Language Models Large and Small
- arxiv url: http://arxiv.org/abs/2402.12061v1
- Date: Mon, 19 Feb 2024 11:28:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 16:52:25.813205
- Title: All Language Models Large and Small
- Title(参考訳): すべての言語モデルが大きくて小さく
- Authors: Zhixun Chen, Yali Du, David Mguni
- Abstract要約: 多くの主要な言語モデル(LM)は、訓練と実行の両方で高強度の計算資源を使用する。
これは、デプロイメントのリソースコストを削減し、意思決定タスクの実行を高速化するという課題を引き起こします。
本稿では,Language Optimising Network Distribution (LONDI) フレームワークという新しいLMフレームワークを紹介する。
- 参考スコア(独自算出の注目度): 5.256018274760531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many leading language models (LMs) use high-intensity computational resources
both during training and execution. This poses the challenge of lowering
resource costs for deployment and faster execution of decision-making tasks
among others. We introduce a novel plug-and-play LM framework named Language
Optimising Network Distribution (LONDI) framework. LONDI learns to selectively
employ large LMs only where complex decision-making and reasoning are required
while using low-resource LMs everywhere else. LONDI consists of a system of two
(off-)policy networks, an LM, a large LM (LLM), and a reinforcement learning
module that uses switching controls to quickly learn which system states to
call the LLM. We then introduce a variant of LONDI that maintains budget
constraints on LLM calls and hence its resource usage. Theoretically, we prove
LONDI learns the subset of system states to activate the LLM required to solve
the task. We then prove that LONDI converges to optimal solutions while also
preserving budgetary constraints on LLM calls almost surely enabling it to
solve various tasks while significantly lowering computational costs. We test
LONDI's performance in a range of tasks in ScienceWorld and BabyAI-Text and
demonstrate that LONDI can solve tasks only solvable by resource-intensive LLMs
while reducing GPU usage by up to 30%.
- Abstract(参考訳): 多くの主要な言語モデル(LM)は、訓練と実行の両方で高強度の計算資源を使用する。
これは、デプロイメントのリソースコストを削減し、意思決定タスクの実行を高速化するという課題を引き起こします。
本稿では,Language Optimising Network Distribution (LONDI) フレームワークという新しいLMフレームワークを紹介する。
LONDIは、低リソースのLMをどこでも使用しながら、複雑な意思決定と推論を必要とする場合にのみ、大規模なLMを選択的に採用することを学ぶ。
londiは、2つの(オフ)ポリシーネットワーク、lm、大きなlm(llm)、および、スイッチングコントロールを使用してllmを呼び出すシステムの状態を素早く学習する強化学習モジュールで構成される。
次に LLM コールの予算制約とリソース使用量を維持する LONDI の変種を導入する。
理論的には、LONDIはシステム状態のサブセットを学習し、その課題を解決するのに必要なLLMを活性化する。
次に、LONDIが最適解に収束すると同時に、LLMコールの予算制約をほぼ確実に保ちながら、計算コストを大幅に削減しながら様々なタスクを解決できることを証明した。
我々は、ScienceWorldとBabyAI-TextのタスクでLONDIのパフォーマンスをテストし、LONDIはリソース集約型LLMでのみ解決可能なタスクを解き、GPU使用率を最大30%削減できることを示した。
関連論文リスト
- Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。
既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。
サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T03:06:32Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Data-Centric Financial Large Language Models [27.464319154543173]
大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。
我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-07T04:53:31Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Enabling Intelligent Interactions between an Agent and an LLM: A
Reinforcement Learning Approach [33.24651276102073]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。