論文の概要: Effortless Integration of Memory Management into Open-Domain
Conversation Systems
- arxiv url: http://arxiv.org/abs/2305.13973v1
- Date: Tue, 23 May 2023 11:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:49:53.755555
- Title: Effortless Integration of Memory Management into Open-Domain
Conversation Systems
- Title(参考訳): オープンドメイン会話システムへのメモリ管理の無力な統合
- Authors: Eunbi Choi, Kyoung-Woon On, Gunsoo Han, Sungwoong Kim, Daniel Wontae
Nam, Daejin Jo, Seung Eun Rho, Taehwan Kwon, Minjoon Seo
- Abstract要約: メモリ管理機能を組み込んだBlenderBot3を提案する。
メモリ管理を訓練したマルチタスクであるBlenderBot3-M3は、F1スコアの点でBlenderBot3よりも4%向上した。
- 参考スコア(独自算出の注目度): 22.647618638893057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-domain conversation systems integrate multiple conversation skills into
a single system through a modular approach. One of the limitations of the
system, however, is the absence of management capability for external memory.
In this paper, we propose a simple method to improve BlenderBot3 by integrating
memory management ability into it. Since no training data exists for this
purpose, we propose an automating dataset creation for memory management. Our
method 1) requires little cost for data construction, 2) does not affect
performance in other tasks, and 3) reduces external memory. We show that our
proposed model BlenderBot3-M^3, which is multi-task trained with memory
management, outperforms BlenderBot3 with a relative 4% performance gain in
terms of F1 score.
- Abstract(参考訳): オープンドメイン会話システムはモジュール方式で複数の会話スキルを単一のシステムに統合する。
しかし、システムの制限の1つは、外部メモリの管理機能がないことである。
本稿では,メモリ管理機能を統合することでblenderbot3を改善するための簡易な方法を提案する。
この目的のためにトレーニングデータがないため、メモリ管理のための自動データセット作成を提案する。
我々の方法
1)データ構築にはほとんど費用がかからない。
2)他のタスクのパフォーマンスに影響を与えず、
3)外部メモリの削減。
提案したモデルであるBlenderBot3-M^3は、メモリ管理の訓練を受けたマルチタスクであり、F1スコアの点でBlenderBot3よりも4%高い性能を示した。
関連論文リスト
- vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Efficiently Training 7B LLM with 1 Million Sequence Length on 8 GPUs [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。
本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。
我々は,MEMOがMegatron-LMやDeepSpeedと比較して平均2.42倍,2.26倍のMFUを達成することを示す。
論文 参考訳(メタデータ) (2024-07-16T18:59:49Z) - $\text{Memory}^3$: Language Modeling with Explicit Memory [22.572376536612015]
我々は、大言語モデル(LLM)に明示的なメモリ、モデルパラメータよりも安いメモリフォーマット、テキスト検索拡張生成(RAG)を装備する。
予備的な概念実証として, 2.4B LLM をゼロからトレーニングし, より大きな LLM モデルやRAG モデルよりも優れた性能を実現する。
本稿では,知識の外部化を支援するメモリ回路理論を導入し,記憶をトラクタブルにするメモリスペーサー化機構を含む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T11:07:23Z) - Enhancing Large Language Model with Self-Controlled Memory Framework [56.38025154501917]
大きな言語モデル(LLM)は、長い入力を処理できないため、重要な歴史的情報が失われる。
本稿では,LLMが長期記憶を維持し,関連する情報をリコールする能力を高めるための自己制御メモリ(SCM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-26T07:25:31Z) - RMM: Reinforced Memory Management for Class-Incremental Learning [102.20140790771265]
クラスインクリメンタルラーニング(CIL)は、厳格な記憶予算の下で分類器を訓練する。
既存のメソッドは静的およびアドホックな戦略を使ってメモリ割り当てを行うが、これはしばしば準最適である。
本稿では,段階的な段階と異なるオブジェクトクラスに最適化された動的メモリ管理戦略を提案する。
論文 参考訳(メタデータ) (2023-01-14T00:07:47Z) - Learning to Rank Graph-based Application Objects on Heterogeneous
Memories [0.0]
本稿では,アプリケーションの性能に最も影響を与えるアプリケーションオブジェクトを識別し,特徴付ける手法について述べる。
予測モデルを用いてデータ配置を行うことで,ベースラインのアプローチと比較して,実行時間の劣化を12% (平均) および30% (最大) 削減することができる。
論文 参考訳(メタデータ) (2022-11-04T00:20:31Z) - Good Intentions: Adaptive Parameter Management via Intent Signaling [50.01012642343155]
そこで本研究では,既存の機械学習スタックに自然に統合された新たなインテントシグナリング機構を提案する。
次に、このメカニズムに基づいて、完全に適応的でゼロチューニングのパラメータマネージャであるAdaPMについて説明する。
私たちの評価では、AdaPMは、最先端のパラメータマネージャにマッチするか、あるいはパフォーマンスが良くなりました。
論文 参考訳(メタデータ) (2022-06-01T13:02:19Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - End-to-End Egospheric Spatial Memory [32.42361470456194]
Egospheric Spatial Memory (ESM) と呼ばれるパラメータフリーのモジュールを提案し、エージェントの周りの自我圏内のメモリをエンコードする。
ESMは模倣あるいは強化学習を通じてエンドツーエンドでトレーニングすることができる。
ScanNetデータセット上でのセマンティックセグメンテーションへの適用を示す。ESMは画像レベルとマップレベルの推論モダリティを自然に組み合わせている。
論文 参考訳(メタデータ) (2021-02-15T18:59:07Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。