Fugu-MT 論文翻訳(概要): Boosting Long-Context Information Seeking via Query-Guided Activation Refilling

論文の概要: Boosting Long-Context Information Seeking via Query-Guided Activation Refilling

arxiv url: http://arxiv.org/abs/2412.12486v1
Date: Tue, 17 Dec 2024 02:43:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.517036
Title: Boosting Long-Context Information Seeking via Query-Guided Activation Refilling
Title（参考訳）: クエリ誘導アクティベーションリフィルによる長期情報検索の促進
Authors: Hongjin Qian, Zheng Liu, Peitian Zhang, Zhicheng Dou, Defu Lian,
Abstract要約: 本稿では,クエリ誘導型Activation Refilling (ACRE) を用いた長文情報検索タスクの処理手法を提案する。 ACREは2つのキャッシュ間のプロキシ関係を確立し、入力クエリがL1キャッシュに参加し、L2キャッシュから関連するエントリを動的にリフィルする。様々な長文情報検索の実験は、ACREの有効性を示し、性能と効率の両方の改善を実現している。
参考スコア（独自算出の注目度）: 42.71154904685938
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Processing long contexts poses a significant challenge for large language models (LLMs) due to their inherent context-window limitations and the computational burden of extensive key-value (KV) activations, which severely impact efficiency. For information-seeking tasks, full context perception is often unnecessary, as a query's information needs can dynamically range from localized details to a global perspective, depending on its complexity. However, existing methods struggle to adapt effectively to these dynamic information needs. In the paper, we propose a method for processing long-context information-seeking tasks via query-guided Activation Refilling (ACRE). ACRE constructs a Bi-layer KV Cache for long contexts, where the layer-1 (L1) cache compactly captures global information, and the layer-2 (L2) cache provides detailed and localized information. ACRE establishes a proxying relationship between the two caches, allowing the input query to attend to the L1 cache and dynamically refill it with relevant entries from the L2 cache. This mechanism integrates global understanding with query-specific local details, thus improving answer decoding. Experiments on a variety of long-context information-seeking datasets demonstrate ACRE's effectiveness, achieving improvements in both performance and efficiency.
Abstract（参考訳）: 長いコンテキストの処理は、大きな言語モデル(LLM)にとって、その固有のコンテキストウィンドウの制限と、広範囲なキー値(KV)アクティベーションの計算負担が効率に重大な影響を及ぼすため、大きな課題となる。情報検索タスクでは、クエリの必要な情報はその複雑さに応じて、局所化された詳細からグローバルな視点まで動的に変化できるため、完全なコンテキスト認識は不要であることが多い。しかし、既存の手法はこれらの動的な情報要求に効果的に対応するのに苦労している。本稿では,クエリ誘導型Activation Refilling (ACRE) を用いた長文情報検索タスクの処理手法を提案する。 ACREは、2層KVキャッシュを構築し、レイヤ-1(L1)キャッシュはグローバル情報をコンパクトにキャプチャし、レイヤ-2(L2)キャッシュは詳細でローカライズされた情報を提供する。 ACREは2つのキャッシュ間のプロキシ関係を確立し、入力クエリがL1キャッシュに参加し、L2キャッシュから関連するエントリを動的にリフィルする。このメカニズムは、グローバルな理解とクエリ固有のローカル詳細を統合し、回答の復号化を改善する。さまざまな長期コンテキスト情報検索データセットの実験は、ACREの有効性を示し、パフォーマンスと効率の両方の改善を実現している。

関連論文リスト

LOVO: Efficient Complex Object Query in Large-Scale Video Datasets [11.821229903544404]
LOVOは、comp$underlineL$ex $underlineO$bjectクエリを大規模$underlineV$ide$underlineO$データセットで効率的に扱うように設計された新しいシステムである。ユーザクエリに依存しないLOVOは、事前トレーニングされたビジュアルエンコーダを使用して、ワンタイムの機能抽出を実行し、キーフレームに対するコンパクトなビジュアル埋め込みを生成する。クエリフェーズの間、LOVOはオブジェクトクエリをクエリの埋め込みに変換し、視覚的な埋め込みの近傍の高速な探索を行う。
論文参考訳（メタデータ） (2025-07-18T18:21:43Z)
QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文参考訳（メタデータ） (2025-04-03T18:47:16Z)
PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文参考訳（メタデータ） (2025-03-05T15:24:11Z)
Self-Taught Agentic Long Context Understanding [47.186303525057475]
AgenticLUは、ターゲットの自己明確化と文脈的接地を統合するために設計されたフレームワークである。 AgenticLUはNarrativeQAで97.8%の回答リコールを達成し、検索深度は最大3、分岐係数は8である。
論文参考訳（メタデータ） (2025-02-21T20:29:36Z)
Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。 CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-17T01:54:08Z)
SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文参考訳（メタデータ） (2024-12-13T17:59:52Z)
InstCache: A Predictive Cache for LLM Serving [6.076957323090607]
キャッシング技術は、大規模言語モデル推論エンジンのパフォーマンスを最適化する機会を提供する。命令の内容と長さのばらつきが大きいため、同じ命令が短時間のウィンドウ内で再帰することは稀である。 LLMサービスシステムの予測キャッシュ機構であるInstCacheを提案する。
論文参考訳（メタデータ） (2024-11-21T03:52:41Z)
From Holistic to Localized: Local Enhanced Adapters for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
効率的なビジュアルインストラクションファインタニング(EVIT)は、最小の計算オーバーヘッドで下流タスクにマルチモーダル大言語モデル(MLLM)を適用することを目指している。本稿では,Dual Low-Rank Adaptation (Dual-LoRA)を提案する。
論文参考訳（メタデータ） (2024-11-19T11:03:09Z)
Retrieval or Global Context Understanding? On Many-Shot In-Context Learning for Long-Context Evaluation [10.500629810624769]
マルチショットインコンテキスト学習(ICL)による長文言語モデルの評価について検討する。 ICLタスクが必要とするスキルを特定し、それらに対するモデルの長期コンテキスト能力を調べる。我々は、LCLMの検索機能とグローバルコンテキスト理解機能を別々に特徴付けるために、新しいマルチショットICLベンチマークMANYICLBENCHを導入する。
論文参考訳（メタデータ） (2024-11-11T17:00:59Z)
EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models [19.510078997414606]
EPICは、大きな言語モデルのための位置非依存のコンテキストキャッシュを導入している。 EPICはTTFTの最大8倍のスループットと既存のシステムに対する7倍のスループットを提供する。
論文参考訳（メタデータ） (2024-10-20T08:42:29Z)
Holistic Reasoning with Long-Context LMs: A Benchmark for Database Operations on Massive Textual Data [6.195658947075431]
HoloBenchは、テキストベースのコンテキストにデータベース推論操作をもたらすフレームワークです。本研究では,文脈内の情報量が文脈長よりもLCLMの性能に大きく影響していることを示す。複数の情報の集約を必要とするタスクは、コンテキスト長が増加するにつれて顕著な精度低下を示す。
論文参考訳（メタデータ） (2024-10-15T19:04:13Z)
RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文参考訳（メタデータ） (2024-10-11T14:51:00Z)
SEGMENT+: Long Text Processing with Short-Context Language Models [53.40059130780192]
SEGMENT+は、LMが限られたコンテキストウィンドウ内で拡張入力を効率的に処理できるフレームワークである。 SEGMENT+は構造化音符とフィルタリングモジュールを使用して情報の流れを管理し、制御可能かつ解釈可能なシステムを実現する。
論文参考訳（メタデータ） (2024-10-09T03:40:22Z)
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力であるこの研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文参考訳（メタデータ） (2024-07-01T17:59:47Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
Building Interpretable and Reliable Open Information Retriever for New Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-08-09T07:47:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。