論文の概要: QuickLLaMA: Query-aware Inference Acceleration for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.07528v2
- Date: Thu, 22 Aug 2024 06:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 19:05:52.027355
- Title: QuickLLaMA: Query-aware Inference Acceleration for Large Language Models
- Title(参考訳): QuickLLaMA: 大規模言語モデルのためのクエリ対応推論高速化
- Authors: Jingyao Li, Han Shi, Xin Jiang, Zhenguo Li, Hong Xu, Jiaya Jia,
- Abstract要約: 大規模言語モデルに対するクエリ対応推論(Q-LLM)を導入する。
Q-LLMは、人間の認知に似た広範囲なシーケンスを処理するように設計されている。
特定のウィンドウサイズ内で関連する情報を正確にキャプチャし、クエリに対して正確な回答を提供する。
- 参考スコア(独自算出の注目度): 94.82978039567236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The capacity of Large Language Models (LLMs) to comprehend and reason over long contexts is pivotal for advancements in diverse fields. Yet, they still stuggle with capturing long-distance dependencies within sequences to deeply understand semantics. To address this issue, we introduce Query-aware Inference for LLMs (Q-LLM), a system designed to process extensive sequences akin to human cognition. By focusing on memory data relevant to a given query, Q-LLM can accurately capture pertinent information within a fixed window size and provide precise answers to queries. It doesn't require extra training and can be seamlessly integrated with any LLMs. Q-LLM using LLaMA3 (QuickLLaMA) can read Harry Potter within 30s and accurately answer the questions. On widely recognized benchmarks, Q-LLM improved by 7.17% compared to the current state-of-the-art on LLaMA3, and by 3.26% on Mistral on the $\infty$-bench. In the Needle-in-a-Haystack and BABILong task, Q-LLM improved upon the current SOTA by 7.0% and 6.1%. Our code can be found in https://github.com/dvlab-research/Q-LLM.
- Abstract(参考訳): 大きな言語モデル(LLM)の長期的文脈における理解と推論能力は、様々な分野の進歩に欠かせない。
しかし、セマンティクスを深く理解するために、シーケンス内の長距離依存関係をキャプチャすることはまだ難しい。
この問題に対処するために,人間の認識に類似した広範囲なシーケンスを処理するシステムであるLLM(Query-Aware Inference for LLMs, Q-LLM)を導入する。
与えられたクエリに関連するメモリデータにフォーカスすることで、Q-LLMは特定のウィンドウサイズ内で関連する情報を正確にキャプチャし、クエリに対する正確な回答を提供することができる。
余分なトレーニングは不要で、どんなLLMともシームレスに統合できます。
LLaMA3 (QuickLLaMA) を用いたQ-LLMでは、30秒以内にハリー・ポッターを読み、質問に正確に答えることができる。
広く知られているベンチマークでは、Q-LLMはLLaMA3の最先端と比較して7.17%改善し、Mistralでは3.26%改善した。
Needle-in-a-HaystackタスクとBABILongタスクでは、Q-LLMは現在のSOTAに対して7.0%と6.1%改善した。
私たちのコードはhttps://github.com/dvlab-research/Q-LLM.comで確認できます。
関連論文リスト
- Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - Porting Large Language Models to Mobile Devices for Question Answering [1.0878040851637998]
我々は、どのようにして最先端のLarge Language Modelsをモバイルデバイスに移植したかを説明した。
LLM推論には、柔軟で自己完結したC++フレームワークであるllamaフレームワークを使用します。
実験結果から,Galaxy S21スマートフォン上でのLCM推論は対話的な速度で動作していることがわかった。
論文 参考訳(メタデータ) (2024-04-24T12:59:54Z) - Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。
本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。
また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:28:16Z) - Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。
課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。
質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文 参考訳(メタデータ) (2024-03-26T14:43:48Z) - What Large Language Models Bring to Text-rich VQA? [38.569505870771025]
テキストリッチVQA(英: Text-rich VQA)は、画像中のテキスト認識に基づく視覚的質問応答(Visual Question Answering)であり、画像の理解とテキスト認識の両方を必要とする。
上記の懸念に対処するために、外部のOCRモデルを用いて画像中のテキストを認識し、Large Language Models (LLMs) を用いて質問に答える。
このパイプラインは、既存のMLLM(Multimodal Large Language Models)の4つのテキストリッチなVQAデータセットと比較して、優れたパフォーマンスを実現した。
論文 参考訳(メタデータ) (2023-11-13T12:52:29Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - Attributed Question Answering: Evaluation and Modeling for Attributed
Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。
我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文 参考訳(メタデータ) (2022-12-15T18:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。