論文の概要: Remember what you did so you know what to do next
- arxiv url: http://arxiv.org/abs/2311.01468v1
- Date: Mon, 30 Oct 2023 19:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-12 19:55:41.712953
- Title: Remember what you did so you know what to do next
- Title(参考訳): あなたは次に何をすべきかを覚えています
- Authors: Manuel R. Ciosici, Alex Hedges, Yash Kankanampati, Justin Martin,
Marjorie Freedman, Ralph Weischedel
- Abstract要約: 我々は,初等科学実験のためのテキストゲームシミュレータであるScienceWorldにおいて,シミュレーションロボットが30の目標を達成する計画を立てる。
実験の結果、30種類のアクションに対して、パフォーマンスが広範囲に分散していることが示され、タスクに対する平均化が重大なパフォーマンス上の問題を隠蔽する可能性が示唆された。
- 参考スコア(独自算出の注目度): 10.526351131118096
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We explore using a moderately sized large language model (GPT-J 6B
parameters) to create a plan for a simulated robot to achieve 30 classes of
goals in ScienceWorld, a text game simulator for elementary science
experiments. Previously published empirical work claimed that large language
models (LLMs) are a poor fit (Wang et al., 2022) compared to reinforcement
learning. Using the Markov assumption (a single previous step), the LLM
outperforms the reinforcement learning-based approach by a factor of 1.4. When
we fill the LLM's input buffer with as many prior steps as possible,
improvement rises to 3.5x. Even when training on only 6.5% of the training
data, we observe a 2.2x improvement over the reinforcement-learning-based
approach. Our experiments show that performance varies widely across the 30
classes of actions, indicating that averaging over tasks can hide significant
performance issues. In work contemporaneous with ours, Lin et al. (2023)
demonstrated a two-part approach (SwiftSage) that uses a small LLM (T5-large)
complemented by OpenAI's massive LLMs to achieve outstanding results in
ScienceWorld. Our 6-B parameter, single-stage GPT-J matches the performance of
SwiftSage's two-stage architecture when it incorporates GPT-3.5 turbo which has
29-times more parameters than GPT-J.
- Abstract(参考訳): 小学校理科実験用テキストゲームシミュレータであるScienceWorldにおいて、中規模大言語モデル(GPT-J 6Bパラメータ)を用いて、シミュレーションロボットが30種類の目標を達成する計画を作成する。
以前に出版された経験的研究によると、大型言語モデル(LLM)は強化学習と比較して不適合である(Wang et al., 2022)。
マルコフの仮定(前のステップの1つ)を用いて、LLMは強化学習に基づくアプローチを1.4倍に向上させる。
LLMの入力バッファをできるだけ多くの事前ステップで満たすと、改善は3.5倍になる。
トレーニングデータのわずか6.5%のトレーニングでも、強化学習に基づくアプローチよりも2.2倍の改善が見られた。
実験の結果、30種類のアクションに対して、パフォーマンスが広範囲に分散していることが判明した。
2023年、Lin et al.(2023年)は、OpenAIの大規模LLMを補完する小さなLLM(T5-large)を用いて、ScienceWorldで優れた結果を得るための2部アプローチ(SwiftSage)を実演した。
我々の6-BパラメータであるシングルステージGPT-Jは、GPT-Jよりも29倍のパラメータを持つGPT-3.5ターボを組み込んだSwiftSageの2段アーキテクチャの性能と一致する。
関連論文リスト
- LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture-of-Experts Large Language Models [94.02958592636972]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - Transcending Scaling Laws with 0.1% Extra Compute [128.13903265447675]
言語モデルをスケールすることでパフォーマンスが向上するが、計算コストは大幅に向上する。
本稿では,既存の言語モデルとそのスケーリング曲線を,比較的少量の余剰計算で大幅に改善するUL2Rを提案する。
ほぼ無視可能な余分な計算コストと新しいデータソースがなければ、ダウンストリームメトリクス上の大規模言語モデルのスケーリング特性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-10-20T16:46:41Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Utilizing Ensemble Learning for Performance and Power Modeling and
Improvement of Parallel Cancer Deep Learning CANDLE Benchmarks [0.0]
本稿では,アンサンブル学習を用いて,線形,非線形,木/木に基づく機械学習手法を組み合わせる。
2つの並列癌ディープラーニングCANDLEベンチマーク(NT3とP1B2)のために収集したデータセットを使用する。
P1B2は最大61.15%,P1B2は最大62.58%,P1B2は最大55.81%,NT3は最大52.60%の省エネルギーを実現した。
論文 参考訳(メタデータ) (2020-11-12T21:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。