Fugu-MT 論文翻訳(概要): Efficient Knowledge Feeding to Language Models: A Novel Integrated Encoder-Decoder Architecture

論文の概要: Efficient Knowledge Feeding to Language Models: A Novel Integrated Encoder-Decoder Architecture

arxiv url: http://arxiv.org/abs/2502.05233v1
Date: Fri, 07 Feb 2025 04:24:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:49.140828
Title: Efficient Knowledge Feeding to Language Models: A Novel Integrated Encoder-Decoder Architecture
Title（参考訳）: 言語モデルに対する効率的な知識提供:新しいエンコーダ・デコーダアーキテクチャ
Authors: S Santosh Kumar, Rishi Gottimukkala, Supriya Devidutta, Karthikeyan S,
Abstract要約: ICVは言語モデルの潜在埋め込みを用いて、コンテキスト内学習をリキャストする。 ICVは直接情報をモデルに統合し、この情報をより効率的に処理することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a novel approach to efficiently feeding knowledge to language models (LLMs) during prediction by integrating retrieval and generation processes within a unified framework. While the Retrieval-Augmented Generation (RAG) model addresses gaps in LLMs' training data and knowledge limits, it is hindered by token limit restrictions and dependency on the retrieval system's accuracy. Our proposed architecture incorporates in-context vectors (ICV) to overcome these challenges. ICV recasts in-context learning by using latent embeddings of LLMs to create a vector that captures essential task information. This vector is then used to shift the latent states of the LLM, enhancing the generation process without adding demonstration examples to the prompt. ICV directly integrates information into the model, enabling it to process this information more effectively. Our extensive experimental evaluation demonstrates that ICV outperforms standard in-context learning and fine-tuning across question-answering, information retrieval, and other tasks. This approach mitigates the limitations of current RAG models and offers a more robust solution for handling extensive and diverse datasets. Despite leveraging a fraction of the parameters, our ICV-enhanced model achieves competitive performance against models like LLaMA-3, Gemma, and Phi-3, significantly reducing computational costs and memory requirements. ICV reduces prompt length, is easy to control, surpasses token limitations, and is computationally efficient compared to fine-tuning.
Abstract（参考訳）: 本稿では,言語モデル (LLM) に知識を効率よく供給する手法を提案する。 Retrieval-Augmented Generation (RAG)モデルは、LLMのトレーニングデータと知識制限のギャップに対処するが、トークン制限と検索システムの精度への依存性によって妨げられる。提案アーキテクチャは、これらの課題を克服するために、コンテキスト内ベクトル(ICV)を組み込んでいる。 ICVはLLMの潜在埋め込みを用いてコンテキスト内学習をリキャストし、必須のタスク情報をキャプチャするベクトルを生成する。このベクトルはLLMの潜伏状態のシフトに使用され、プロンプトに実演例を追加することなく生成プロセスを強化する。 ICVは直接情報をモデルに統合し、この情報をより効率的に処理することができる。 ICVは,質問応答,情報検索,その他のタスクにおいて,標準的な文脈内学習や微調整よりも優れていることを示す。このアプローチは、現在のRAGモデルの制限を緩和し、広範囲で多様なデータセットを扱うための、より堅牢なソリューションを提供する。パラメータのごく一部を活用するにもかかわらず、我々のICV強化モデルは、LLaMA-3、Gemma、Phi-3といったモデルと競合する性能を達成し、計算コストとメモリ要求を大幅に削減する。 ICVは迅速な長さを減らし、制御が容易で、トークン制限を超え、微調整に比べて計算効率が良い。

関連論文リスト

DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
Visual RAG: Expanding MLLM visual knowledge without fine-tuning [5.341192792319891]
本稿では、文脈から学習するMLLMの機能と検索機構を相乗的に組み合わせたVisual RAGを紹介する。このようにして、得られたシステムは、トレーニングデータから抽出した知識に限らず、微調整なしで、迅速かつ容易に更新できる。モデル画像分類性能を改善するための計算コストを大幅に削減し、トレーニングされていない新しい視覚領域やタスクにモデル知識を拡大する。
論文参考訳（メタデータ） (2025-01-18T17:43:05Z)
Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。 LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-11-12T18:57:59Z)
CodeUnlearn: Amortized Zero-Shot Machine Unlearning in Language Models Using Discrete Concept [5.345828824625758]
コードブック機能とスパースオートエンコーダ(SAEs)を用いた新しいアンラーニング手法を提案する。ボトルネックを利用して、アクティベーション空間を分解し、情報の流れを規制することにより、モデルの性能を無関係なデータに保ちながら、ターゲットとなる情報を効率的に解き放つ。
論文参考訳（メタデータ） (2024-10-08T10:26:22Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。 Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文参考訳（メタデータ） (2024-07-25T07:09:35Z)
Leveraging Large Language Models for Web Scraping [0.0]
本研究では,言語生成用に設計したRAGモデルに対して,汎用的な高精度なデータスクレイピング手法について検討する。よりモジュール的で解釈可能な方法で知識をキャプチャするために、私たちは、潜在的な知識検索機能を備えた事前訓練された言語モデルを使用します。
論文参考訳（メタデータ） (2024-06-12T14:15:15Z)
CEM: A Data-Efficient Method for Large Language Models to Continue Evolving From Mistakes [36.14056870453356]
大きな言語モデルを維持し、その欠点に対処するためには、継続的な学習が不可欠です。本稿では,CPTデータ収集を目的としたデータ効率の高い手法であるCEM法を提案する。実験の結果、CEMはドメイン内QAタスクとドメイン外QAタスクの両方で複数のモデルの性能を大幅に向上させ、最大29.63%のゲインを達成している。
論文参考訳（メタデータ） (2024-04-11T17:44:56Z)
Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文参考訳（メタデータ） (2024-03-18T08:00:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。