Fugu-MT 論文翻訳(概要): QuickLLaMA: Query-aware Inference Acceleration for Large Language Models

論文の概要: QuickLLaMA: Query-aware Inference Acceleration for Large Language Models

arxiv url: http://arxiv.org/abs/2406.07528v2
Date: Thu, 22 Aug 2024 06:09:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 19:05:52.027355
Title: QuickLLaMA: Query-aware Inference Acceleration for Large Language Models
Title（参考訳）: QuickLLaMA: 大規模言語モデルのためのクエリ対応推論高速化
Authors: Jingyao Li, Han Shi, Xin Jiang, Zhenguo Li, Hong Xu, Jiaya Jia,
Abstract要約: 大規模言語モデルに対するクエリ対応推論(Q-LLM)を導入する。 Q-LLMは、人間の認知に似た広範囲なシーケンスを処理するように設計されている。特定のウィンドウサイズ内で関連する情報を正確にキャプチャし、クエリに対して正確な回答を提供する。
参考スコア（独自算出の注目度）: 94.82978039567236
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The capacity of Large Language Models (LLMs) to comprehend and reason over long contexts is pivotal for advancements in diverse fields. Yet, they still stuggle with capturing long-distance dependencies within sequences to deeply understand semantics. To address this issue, we introduce Query-aware Inference for LLMs (Q-LLM), a system designed to process extensive sequences akin to human cognition. By focusing on memory data relevant to a given query, Q-LLM can accurately capture pertinent information within a fixed window size and provide precise answers to queries. It doesn't require extra training and can be seamlessly integrated with any LLMs. Q-LLM using LLaMA3 (QuickLLaMA) can read Harry Potter within 30s and accurately answer the questions. On widely recognized benchmarks, Q-LLM improved by 7.17% compared to the current state-of-the-art on LLaMA3, and by 3.26% on Mistral on the $\infty$-bench. In the Needle-in-a-Haystack and BABILong task, Q-LLM improved upon the current SOTA by 7.0% and 6.1%. Our code can be found in https://github.com/dvlab-research/Q-LLM.
Abstract（参考訳）: 大きな言語モデル(LLM)の長期的文脈における理解と推論能力は、様々な分野の進歩に欠かせない。しかし、セマンティクスを深く理解するために、シーケンス内の長距離依存関係をキャプチャすることはまだ難しい。この問題に対処するために,人間の認識に類似した広範囲なシーケンスを処理するシステムであるLLM(Query-Aware Inference for LLMs, Q-LLM)を導入する。与えられたクエリに関連するメモリデータにフォーカスすることで、Q-LLMは特定のウィンドウサイズ内で関連する情報を正確にキャプチャし、クエリに対する正確な回答を提供することができる。余分なトレーニングは不要で、どんなLLMともシームレスに統合できます。 LLaMA3 (QuickLLaMA) を用いたQ-LLMでは、30秒以内にハリー・ポッターを読み、質問に正確に答えることができる。広く知られているベンチマークでは、Q-LLMはLLaMA3の最先端と比較して7.17%改善し、Mistralでは3.26%改善した。 Needle-in-a-HaystackタスクとBABILongタスクでは、Q-LLMは現在のSOTAに対して7.0%と6.1%改善した。私たちのコードはhttps://github.com/dvlab-research/Q-LLM.comで確認できます。

関連論文リスト

SPARQL Query Generation with LLMs: Measuring the Impact of Training Data Memorization and Knowledge Injection [81.78173888579941]
大規模言語モデル(LLM)は、質問応答機能の品質を高めるのに適した方法と考えられている。 LLMはWebデータに基づいてトレーニングされており、ベンチマークや知識グラフがトレーニングデータに含まれているかどうかを研究者は制御できない。本稿では,自然言語質問からSPARQLクエリを生成し,LLMの品質を評価する手法を提案する。
論文参考訳（メタデータ） (2025-07-18T12:28:08Z)
Guarded Query Routing for Large Language Models [3.1457219084519004]
まず、GQR-Bench(Guarded Query Routing Benchmark)を紹介します。次に、GQR-Benchを用いて、LLMベースのルーティング機構の有効性と効率を対比する。その結果,ドメイン外検出能力が向上したWideMLPでは,精度(88%)と速度(4ms)のトレードオフが最良であることがわかった。
論文参考訳（メタデータ） (2025-05-20T15:46:59Z)
MQA-KEAL: Multi-hop Question Answering under Knowledge Editing for Arabic Language [7.488965571323756]
アラビア語(MQA-KEAL)の知識編集に基づくマルチホップ質問回答を提案する。 MQA-KEALは、知識編集を構造化知識単位として外部メモリに格納する。また,KE による MQA の厳密な性能評価のための MQA-AEVAL も提案した。
論文参考訳（メタデータ） (2024-09-18T18:40:02Z)
Revisiting Multi-Modal LLM Evaluation [29.094387692681337]
我々は,最近のMLLM(LLaVA 1.5, LLaVA-NeXT, BLIP2, InstructBLIP, GPT-4V, GPT-4o)を,以前のMLLMの弱点に対処するためのデータセット上で評価した。我々のコードはMLLM評価のために広く使われているLAVISフレームワークに統合されており、将来のMLLMの迅速な評価を可能にしている。
論文参考訳（メタデータ） (2024-08-09T20:55:46Z)
Make Your LLM Fully Utilize the Context [70.89099306100155]
FILM-7Bは,32Kコンテキストウィンドウにおいて,異なる位置から情報を取り出すことができることを示す。 FILM-7Bは現実世界の長文タスクの性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-04-25T17:55:14Z)
Porting Large Language Models to Mobile Devices for Question Answering [1.0878040851637998]
我々は、どのようにして最先端のLarge Language Modelsをモバイルデバイスに移植したかを説明した。 LLM推論には、柔軟で自己完結したC++フレームワークであるllamaフレームワークを使用します。実験結果から,Galaxy S21スマートフォン上でのLCM推論は対話的な速度で動作していることがわかった。
論文参考訳（メタデータ） (2024-04-24T12:59:54Z)
Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文参考訳（メタデータ） (2024-03-26T14:43:48Z)
LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文参考訳（メタデータ） (2023-08-28T11:53:40Z)
Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文参考訳（メタデータ） (2023-05-24T06:16:44Z)
Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-16T18:23:43Z)
Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文参考訳（メタデータ） (2022-12-15T18:45:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。