Fugu-MT 論文翻訳(概要): Remember what you did so you know what to do next

論文の概要: Remember what you did so you know what to do next

arxiv url: http://arxiv.org/abs/2311.01468v1
Date: Mon, 30 Oct 2023 19:29:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-12 19:55:41.712953
Title: Remember what you did so you know what to do next
Title（参考訳）: あなたは次に何をすべきかを覚えています
Authors: Manuel R. Ciosici, Alex Hedges, Yash Kankanampati, Justin Martin, Marjorie Freedman, Ralph Weischedel
Abstract要約: 我々は,初等科学実験のためのテキストゲームシミュレータであるScienceWorldにおいて,シミュレーションロボットが30の目標を達成する計画を立てる。実験の結果、30種類のアクションに対して、パフォーマンスが広範囲に分散していることが示され、タスクに対する平均化が重大なパフォーマンス上の問題を隠蔽する可能性が示唆された。
参考スコア（独自算出の注目度）: 10.526351131118096
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We explore using a moderately sized large language model (GPT-J 6B parameters) to create a plan for a simulated robot to achieve 30 classes of goals in ScienceWorld, a text game simulator for elementary science experiments. Previously published empirical work claimed that large language models (LLMs) are a poor fit (Wang et al., 2022) compared to reinforcement learning. Using the Markov assumption (a single previous step), the LLM outperforms the reinforcement learning-based approach by a factor of 1.4. When we fill the LLM's input buffer with as many prior steps as possible, improvement rises to 3.5x. Even when training on only 6.5% of the training data, we observe a 2.2x improvement over the reinforcement-learning-based approach. Our experiments show that performance varies widely across the 30 classes of actions, indicating that averaging over tasks can hide significant performance issues. In work contemporaneous with ours, Lin et al. (2023) demonstrated a two-part approach (SwiftSage) that uses a small LLM (T5-large) complemented by OpenAI's massive LLMs to achieve outstanding results in ScienceWorld. Our 6-B parameter, single-stage GPT-J matches the performance of SwiftSage's two-stage architecture when it incorporates GPT-3.5 turbo which has 29-times more parameters than GPT-J.
Abstract（参考訳）: 小学校理科実験用テキストゲームシミュレータであるScienceWorldにおいて、中規模大言語モデル(GPT-J 6Bパラメータ)を用いて、シミュレーションロボットが30種類の目標を達成する計画を作成する。以前に出版された経験的研究によると、大型言語モデル(LLM)は強化学習と比較して不適合である(Wang et al., 2022)。マルコフの仮定(前のステップの1つ)を用いて、LLMは強化学習に基づくアプローチを1.4倍に向上させる。 LLMの入力バッファをできるだけ多くの事前ステップで満たすと、改善は3.5倍になる。トレーニングデータのわずか6.5%のトレーニングでも、強化学習に基づくアプローチよりも2.2倍の改善が見られた。実験の結果、30種類のアクションに対して、パフォーマンスが広範囲に分散していることが判明した。 2023年、Lin et al.(2023年)は、OpenAIの大規模LLMを補完する小さなLLM(T5-large)を用いて、ScienceWorldで優れた結果を得るための2部アプローチ(SwiftSage)を実演した。我々の6-BパラメータであるシングルステージGPT-Jは、GPT-Jよりも29倍のパラメータを持つGPT-3.5ターボを組み込んだSwiftSageの2段アーキテクチャの性能と一致する。

関連論文リスト

How to Train Your LLM Web Agent: A Statistical Diagnosis [102.04125085041473]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文参考訳（メタデータ） (2025-07-05T17:12:33Z)
Enhancing LLM-Based Code Generation with Complexity Metrics: A Feedback-Driven Approach [6.289275189295223]
本稿では,コード複雑度と大言語モデル生成コードの成功との関係について検討する。提案手法では,既往の故障した出力からの複雑性メトリクスに基づいて,LCMに正しいコードを生成するための反復的フィードバック手法を提案する。実験結果から,本手法は特に小型LCMでは顕著な改善が見られた。
論文参考訳（メタデータ） (2025-05-29T19:06:14Z)
EmbedAgent: Benchmarking Large Language Models in Embedded System Development [41.849233931919265]
大規模言語モデル(LLM)は様々なタスクにおいて有望であるが、組み込みシステム開発におけるその能力を評価するベンチマークは少ない。組込みシステム開発における現実の役割をシミュレートするパラダイムである EmbedAgent を紹介する。組込みシステムプログラミング、回路設計、クロスプラットフォームマイグレーションのための最初の包括的なベンチマークであるEmbedbenchを提案する。
論文参考訳（メタデータ） (2025-04-19T12:51:24Z)
TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking [6.070192392563392]
1b と 3b のパラメータサイズで利用可能な,最初の大規模事前訓練型 Bangla LLM である TituLLM を提案する。 TituLLMsをトレーニングするために、約37億トークンの事前トレーニングデータセットを収集しました。我々はLlama-3.2トークンを言語や文化固有の知識に組み込むように拡張した。
論文参考訳（メタデータ） (2025-02-16T16:22:23Z)
Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training [27.857935426067076]
スモール言語モデル (SLM) はエッジデバイスにおける幅広い応用のために注目されている。高い性能を持つSLMを得るには、計算コストがかなりかかるスクラッチからモデルを事前訓練するか、既存の大規模言語モデル(LLM)を圧縮し、事前訓練に比べて性能が低下し低下する。 1) レイヤーワイド適応プルーニング (Adapt-Pruner) は, LLM において極めて有効であり, 既存のプルーニング技術よりも顕著な改善が得られ, 2) さらなるトレーニングを施した適応プルーニングは, スクラッチから事前学習したプルーニングに匹敵するモデルとなる。
論文参考訳（メタデータ） (2025-02-05T18:57:40Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文参考訳（メタデータ） (2024-10-24T13:51:50Z)
Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めたモデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文参考訳（メタデータ） (2024-09-07T13:57:41Z)
Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-04T02:41:04Z)
Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文参考訳（メタデータ） (2024-06-21T02:28:37Z)
LLMEmbed: Rethinking Lightweight LLM's Genuine Function in Text Classification [13.319594321038926]
本稿では,この古典的だが挑戦的な課題に対処するために,LLMEmbedという,シンプルで効果的なトランスファー学習戦略を提案する。その結果,LLMEmbedはトレーニングのオーバーヘッドを低く抑えながら,高い性能を発揮することがわかった。
論文参考訳（メタデータ） (2024-06-06T03:46:59Z)
LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。 STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文参考訳（メタデータ） (2024-03-07T18:50:51Z)
EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。 EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文参考訳（メタデータ） (2022-10-14T13:26:41Z)
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。 GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。 GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文参考訳（メタデータ） (2021-12-13T18:58:19Z)
CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文参考訳（メタデータ） (2021-06-20T15:43:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。