論文の概要: Effortless Integration of Memory Management into Open-Domain
Conversation Systems
- arxiv url: http://arxiv.org/abs/2305.13973v1
- Date: Tue, 23 May 2023 11:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:49:53.755555
- Title: Effortless Integration of Memory Management into Open-Domain
Conversation Systems
- Title(参考訳): オープンドメイン会話システムへのメモリ管理の無力な統合
- Authors: Eunbi Choi, Kyoung-Woon On, Gunsoo Han, Sungwoong Kim, Daniel Wontae
Nam, Daejin Jo, Seung Eun Rho, Taehwan Kwon, Minjoon Seo
- Abstract要約: メモリ管理機能を組み込んだBlenderBot3を提案する。
メモリ管理を訓練したマルチタスクであるBlenderBot3-M3は、F1スコアの点でBlenderBot3よりも4%向上した。
- 参考スコア(独自算出の注目度): 22.647618638893057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-domain conversation systems integrate multiple conversation skills into
a single system through a modular approach. One of the limitations of the
system, however, is the absence of management capability for external memory.
In this paper, we propose a simple method to improve BlenderBot3 by integrating
memory management ability into it. Since no training data exists for this
purpose, we propose an automating dataset creation for memory management. Our
method 1) requires little cost for data construction, 2) does not affect
performance in other tasks, and 3) reduces external memory. We show that our
proposed model BlenderBot3-M^3, which is multi-task trained with memory
management, outperforms BlenderBot3 with a relative 4% performance gain in
terms of F1 score.
- Abstract(参考訳): オープンドメイン会話システムはモジュール方式で複数の会話スキルを単一のシステムに統合する。
しかし、システムの制限の1つは、外部メモリの管理機能がないことである。
本稿では,メモリ管理機能を統合することでblenderbot3を改善するための簡易な方法を提案する。
この目的のためにトレーニングデータがないため、メモリ管理のための自動データセット作成を提案する。
我々の方法
1)データ構築にはほとんど費用がかからない。
2)他のタスクのパフォーマンスに影響を与えず、
3)外部メモリの削減。
提案したモデルであるBlenderBot3-M^3は、メモリ管理の訓練を受けたマルチタスクであり、F1スコアの点でBlenderBot3よりも4%高い性能を示した。
関連論文リスト
- APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。
アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。
状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文 参考訳(メタデータ) (2024-12-02T06:57:46Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - MEMO: Fine-grained Tensor Management For Ultra-long Context LLM Training [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。
本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。
MeMOはMegatron-LMやDeepSpeedと比べて平均1.97倍と1.80倍のMFUを達成している。
論文 参考訳(メタデータ) (2024-07-16T18:59:49Z) - $\text{Memory}^3$: Language Modeling with Explicit Memory [22.572376536612015]
我々は、大言語モデル(LLM)に明示的なメモリ、モデルパラメータよりも安いメモリフォーマット、テキスト検索拡張生成(RAG)を装備する。
予備的な概念実証として, 2.4B LLM をゼロからトレーニングし, より大きな LLM モデルやRAG モデルよりも優れた性能を実現する。
本稿では,知識の外部化を支援するメモリ回路理論を導入し,記憶をトラクタブルにするメモリスペーサー化機構を含む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T11:07:23Z) - Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z) - RMM: Reinforced Memory Management for Class-Incremental Learning [102.20140790771265]
クラスインクリメンタルラーニング(CIL)は、厳格な記憶予算の下で分類器を訓練する。
既存のメソッドは静的およびアドホックな戦略を使ってメモリ割り当てを行うが、これはしばしば準最適である。
本稿では,段階的な段階と異なるオブジェクトクラスに最適化された動的メモリ管理戦略を提案する。
論文 参考訳(メタデータ) (2023-01-14T00:07:47Z) - Learning to Rank Graph-based Application Objects on Heterogeneous
Memories [0.0]
本稿では,アプリケーションの性能に最も影響を与えるアプリケーションオブジェクトを識別し,特徴付ける手法について述べる。
予測モデルを用いてデータ配置を行うことで,ベースラインのアプローチと比較して,実行時間の劣化を12% (平均) および30% (最大) 削減することができる。
論文 参考訳(メタデータ) (2022-11-04T00:20:31Z) - End-to-End Egospheric Spatial Memory [32.42361470456194]
Egospheric Spatial Memory (ESM) と呼ばれるパラメータフリーのモジュールを提案し、エージェントの周りの自我圏内のメモリをエンコードする。
ESMは模倣あるいは強化学習を通じてエンドツーエンドでトレーニングすることができる。
ScanNetデータセット上でのセマンティックセグメンテーションへの適用を示す。ESMは画像レベルとマップレベルの推論モダリティを自然に組み合わせている。
論文 参考訳(メタデータ) (2021-02-15T18:59:07Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。