論文の概要: Empower Your Model with Longer and Better Context Comprehension
- arxiv url: http://arxiv.org/abs/2307.13365v2
- Date: Thu, 27 Jul 2023 10:17:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 11:29:36.757011
- Title: Empower Your Model with Longer and Better Context Comprehension
- Title(参考訳): より長くより良いコンテキスト理解でモデルを強化する
- Authors: Yifei Gao, Lei Wang, Jun Fang, Longhua Hu, Jun Cheng
- Abstract要約: 大規模言語モデル(LLM)における情報伝達の性質について検討する。
本研究では,より長いコンテキスト理解を実現するために,意識遷移と呼ばれる新しい手法を提案する。
LLaMa-7bモデルを用いて,800年から1900年までのコンテクストトークン長を持つXSumデータセットについて実験を行った。
- 参考スコア(独自算出の注目度): 15.377707808279908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, with the emergence of numerous Large Language Models (LLMs), the
implementation of AI has entered a new era. Irrespective of these models' own
capacity and structure, there is a growing demand for LLMs to possess enhanced
comprehension of longer and more complex contexts with relatively smaller
sizes. Models often encounter an upper limit when processing sequences of
sentences that extend beyond their comprehension capacity and result in
off-topic or even chaotic responses. While several recent works attempt to
address this issue in various ways, they rarely focus on "why models are unable
to compensate or strengthen their capabilities on their own". In this paper, we
thoroughly investigate the nature of information transfer within LLMs and
propose a novel technique called Attention Transition. This technique empowers
models to achieve longer and better context comprehension with minimal
additional training or impact on generation fluency. Our experiments are
conducted on the challenging XSum dataset using LLaMa-7b model with context
token length ranging from 800 to 1900. Results demonstrate that we achieve
substantial improvements compared with the original generation results
evaluated by GPT4.
- Abstract(参考訳): 近年、多数のLarge Language Models (LLM) が出現し、AIの実装は新しい時代に入った。
これらのモデルの能力と構造を無視すると、LLMは比較的小さなサイズで、より長くより複雑なコンテキストの理解を深める必要性が高まっている。
モデルはしばしば、理解能力を超えた文列を処理し、オフトピー的あるいはカオス的応答をもたらすときに上限となる。
最近のいくつかの研究は様々な方法でこの問題に対処しようとしているが、"なぜモデルが自身の能力に補償や強化ができないのか"に焦点を合わせることは滅多にない。
本稿では,LSMにおける情報伝達の性質を徹底的に検討し,注意遷移と呼ばれる新しい手法を提案する。
このテクニックはモデルに、最小限の追加のトレーニングや生成に影響を及ぼすことで、より長く、より良いコンテキスト理解を達成する権限を与えます。
LLaMa-7bモデルを用いて800年から1900年までのコンテキストトークン長を持つXSumデータセットについて実験を行った。
結果, gpt4で評価した結果に比べ, 実質的な改善が得られた。
関連論文リスト
- Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models [21.90388980448712]
長いコンテキストを扱うためのトレーニングモデルには、大きな課題があります。
継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(textbfUtK)を紹介する。
我々は、UtKがRULER上で128Kの文脈長で75%と84.5%の精度を達成したことを示す200億のトークンで訓練された7Bと72Bのパラメータを持つモデルに関する広範な実験を行った。
論文 参考訳(メタデータ) (2024-09-07T09:28:55Z) - The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large Language Models [19.213774611556]
MLLM(Multi-modal large language model)は、言語情報と視覚情報を統合したものである。
MLLMの革新的展望にもかかわらず、推論能力に対する我々の理解は限られている。
本研究では,オープンソースおよびクローズドソースMLLMの非言語的抽象的推論能力を評価する。
論文 参考訳(メタデータ) (2024-01-22T16:57:05Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - The Truth is in There: Improving Reasoning in Language Models with
Layer-Selective Rank Reduction [22.659005954676598]
重み行列の高次成分を選択的に除去することにより,大規模言語モデルの性能を大幅に向上させることができることを示す。
LAER(Layer-Selective Rank reduction)と呼ばれるこの単純な介入は、トレーニングが完了した後、モデル上で行うことができる。
言語モデルとデータセットにまたがって、この発見の汎用性を実証する広範な実験を示す。
論文 参考訳(メタデータ) (2023-12-21T03:51:08Z) - Teaching Language Models to Self-Improve through Interactive Demonstrations [83.9421355808174]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Small Models are Valuable Plug-ins for Large Language Models [65.29370906766997]
GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重み付けはしばしば一般には利用できない。
我々は,局所的に微調整された小型モデルでブラックボックスLLMを動作させることができるSuper In-Context Learning (SuperICL)を提案する。
論文 参考訳(メタデータ) (2023-05-15T17:59:01Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。