論文の概要: QuickLLaMA: Query-aware Inference Acceleration for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.07528v1
- Date: Tue, 11 Jun 2024 17:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 14:36:00.925310
- Title: QuickLLaMA: Query-aware Inference Acceleration for Large Language Models
- Title(参考訳): QuickLLaMA: 大規模言語モデルのためのクエリ対応推論高速化
- Authors: Jingyao Li, Han Shi, Xin Jiang, Zhenguo Li, Hong Xu, Jiaya Jia,
- Abstract要約: 大規模言語モデルに対するクエリ対応推論(Q-LLM)を導入する。
Q-LLMは、人間の認知に似た広範囲なシーケンスを処理するように設計されている。
特定のウィンドウサイズ内で関連する情報を正確にキャプチャし、クエリに対して正確な回答を提供する。
- 参考スコア(独自算出の注目度): 94.82978039567236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The capacity of Large Language Models (LLMs) to comprehend and reason over long contexts is pivotal for advancements in diverse fields. Yet, they still stuggle with capturing long-distance dependencies within sequences to deeply understand semantics. To address this issue, we introduce Query-aware Inference for LLMs (Q-LLM), a system designed to process extensive sequences akin to human cognition. By focusing on memory data relevant to a given query, Q-LLM can accurately capture pertinent information within a fixed window size and provide precise answers to queries. It doesn't require extra training and can be seamlessly integrated with any LLMs. Q-LLM using LLaMA3 (QuickLLaMA) can read Harry Potter within 30s and accurately answer the questions. Q-LLM improved by 7.17% compared to the current state-of-the-art on LLaMA3, and by 3.26% on Mistral on the $\infty$-bench. In the Needle-in-a-Haystack task, On widely recognized benchmarks, Q-LLM improved upon the current SOTA by 7.0% on Mistral and achieves 100% on LLaMA3. Our code can be found in https://github.com/dvlab-research/Q-LLM.
- Abstract(参考訳): 大きな言語モデル(LLM)の長期的文脈における理解と推論能力は、様々な分野の進歩に欠かせない。
しかし、セマンティクスを深く理解するために、シーケンス内の長距離依存関係をキャプチャすることはまだ難しい。
この問題に対処するために,人間の認識に類似した広範囲なシーケンスを処理するシステムであるLLM(Query-Aware Inference for LLMs, Q-LLM)を導入する。
与えられたクエリに関連するメモリデータにフォーカスすることで、Q-LLMは特定のウィンドウサイズ内で関連する情報を正確にキャプチャし、クエリに対する正確な回答を提供することができる。
余分なトレーニングは不要で、どんなLLMともシームレスに統合できます。
LLaMA3 (QuickLLaMA) を用いたQ-LLMでは、30秒以内にハリー・ポッターを読み、質問に正確に答えることができる。
Q-LLMはLLaMA3の最先端と比較して7.17%改善され、Mistralの$\infty$-benchでは3.26%改善した。
Needle-in-a-Haystackタスクでは、広く認識されているベンチマークで、Q-LLMはMistral上で現在のSOTAを7.0%改善し、LLaMA3で100%達成した。
私たちのコードはhttps://github.com/dvlab-research/Q-LLM.comで確認できます。
関連論文リスト
- MQA-KEAL: Multi-hop Question Answering under Knowledge Editing for Arabic Language [7.488965571323756]
アラビア語(MQA-KEAL)の知識編集に基づくマルチホップ質問回答を提案する。
MQA-KEALは、知識編集を構造化知識単位として外部メモリに格納する。
また,KE による MQA の厳密な性能評価のための MQA-AEVAL も提案した。
論文 参考訳(メタデータ) (2024-09-18T18:40:02Z) - Revisiting Multi-Modal LLM Evaluation [29.094387692681337]
我々は,最近のMLLM(LLaVA 1.5, LLaVA-NeXT, BLIP2, InstructBLIP, GPT-4V, GPT-4o)を,以前のMLLMの弱点に対処するためのデータセット上で評価した。
我々のコードはMLLM評価のために広く使われているLAVISフレームワークに統合されており、将来のMLLMの迅速な評価を可能にしている。
論文 参考訳(メタデータ) (2024-08-09T20:55:46Z) - Make Your LLM Fully Utilize the Context [70.89099306100155]
FILM-7Bは,32Kコンテキストウィンドウにおいて,異なる位置から情報を取り出すことができることを示す。
FILM-7Bは現実世界の長文タスクの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-04-25T17:55:14Z) - Porting Large Language Models to Mobile Devices for Question Answering [1.0878040851637998]
我々は、どのようにして最先端のLarge Language Modelsをモバイルデバイスに移植したかを説明した。
LLM推論には、柔軟で自己完結したC++フレームワークであるllamaフレームワークを使用します。
実験結果から,Galaxy S21スマートフォン上でのLCM推論は対話的な速度で動作していることがわかった。
論文 参考訳(メタデータ) (2024-04-24T12:59:54Z) - Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。
課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。
質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文 参考訳(メタデータ) (2024-03-26T14:43:48Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - Attributed Question Answering: Evaluation and Modeling for Attributed
Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。
我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文 参考訳(メタデータ) (2022-12-15T18:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。