論文の概要: Remember what you did so you know what to do next
- arxiv url: http://arxiv.org/abs/2311.01468v1
- Date: Mon, 30 Oct 2023 19:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-12 19:55:41.712953
- Title: Remember what you did so you know what to do next
- Title(参考訳): あなたは次に何をすべきかを覚えています
- Authors: Manuel R. Ciosici, Alex Hedges, Yash Kankanampati, Justin Martin,
Marjorie Freedman, Ralph Weischedel
- Abstract要約: 我々は,初等科学実験のためのテキストゲームシミュレータであるScienceWorldにおいて,シミュレーションロボットが30の目標を達成する計画を立てる。
実験の結果、30種類のアクションに対して、パフォーマンスが広範囲に分散していることが示され、タスクに対する平均化が重大なパフォーマンス上の問題を隠蔽する可能性が示唆された。
- 参考スコア(独自算出の注目度): 10.526351131118096
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We explore using a moderately sized large language model (GPT-J 6B
parameters) to create a plan for a simulated robot to achieve 30 classes of
goals in ScienceWorld, a text game simulator for elementary science
experiments. Previously published empirical work claimed that large language
models (LLMs) are a poor fit (Wang et al., 2022) compared to reinforcement
learning. Using the Markov assumption (a single previous step), the LLM
outperforms the reinforcement learning-based approach by a factor of 1.4. When
we fill the LLM's input buffer with as many prior steps as possible,
improvement rises to 3.5x. Even when training on only 6.5% of the training
data, we observe a 2.2x improvement over the reinforcement-learning-based
approach. Our experiments show that performance varies widely across the 30
classes of actions, indicating that averaging over tasks can hide significant
performance issues. In work contemporaneous with ours, Lin et al. (2023)
demonstrated a two-part approach (SwiftSage) that uses a small LLM (T5-large)
complemented by OpenAI's massive LLMs to achieve outstanding results in
ScienceWorld. Our 6-B parameter, single-stage GPT-J matches the performance of
SwiftSage's two-stage architecture when it incorporates GPT-3.5 turbo which has
29-times more parameters than GPT-J.
- Abstract(参考訳): 小学校理科実験用テキストゲームシミュレータであるScienceWorldにおいて、中規模大言語モデル(GPT-J 6Bパラメータ)を用いて、シミュレーションロボットが30種類の目標を達成する計画を作成する。
以前に出版された経験的研究によると、大型言語モデル(LLM)は強化学習と比較して不適合である(Wang et al., 2022)。
マルコフの仮定(前のステップの1つ)を用いて、LLMは強化学習に基づくアプローチを1.4倍に向上させる。
LLMの入力バッファをできるだけ多くの事前ステップで満たすと、改善は3.5倍になる。
トレーニングデータのわずか6.5%のトレーニングでも、強化学習に基づくアプローチよりも2.2倍の改善が見られた。
実験の結果、30種類のアクションに対して、パフォーマンスが広範囲に分散していることが判明した。
2023年、Lin et al.(2023年)は、OpenAIの大規模LLMを補完する小さなLLM(T5-large)を用いて、ScienceWorldで優れた結果を得るための2部アプローチ(SwiftSage)を実演した。
我々の6-BパラメータであるシングルステージGPT-Jは、GPT-Jよりも29倍のパラメータを持つGPT-3.5ターボを組み込んだSwiftSageの2段アーキテクチャの性能と一致する。
関連論文リスト
- Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めた
モデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。
これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文 参考訳(メタデータ) (2024-09-07T13:57:41Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - LLMEmbed: Rethinking Lightweight LLM's Genuine Function in Text Classification [13.319594321038926]
本稿では,この古典的だが挑戦的な課題に対処するために,LLMEmbedという,シンプルで効果的なトランスファー学習戦略を提案する。
その結果,LLMEmbedはトレーニングのオーバーヘッドを低く抑えながら,高い性能を発揮することがわかった。
論文 参考訳(メタデータ) (2024-06-06T03:46:59Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。