Fugu-MT 論文翻訳(概要): SEAL: Scaling to Emphasize Attention for Long-Context Retrieval

論文の概要: SEAL: Scaling to Emphasize Attention for Long-Context Retrieval

arxiv url: http://arxiv.org/abs/2501.15225v1
Date: Sat, 25 Jan 2025 14:09:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-28 21:57:03.57396
Title: SEAL: Scaling to Emphasize Attention for Long-Context Retrieval
Title（参考訳）: SEAL: 長期検索における注意力強調のためのスケーリング
Authors: Changhun Lee, Jun-gyu Jin, Younghyun Cho, Eunhyeok Park,
Abstract要約: 我々は、長期文脈検索(SEAL)における注意を強調するためのスケーリングと呼ばれる新しいアプローチを導入する。これにより、拡張コンテキスト上での大規模言語モデル(LLM)の検索性能が向上する。
参考スコア（独自算出の注目度）: 9.446971590056945
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we introduce a novel approach called Scaling to Emphasize Attention for Long-context retrieval (SEAL), which enhances the retrieval performance of large language models (LLMs) over extended contexts. Previous studies have shown that each attention head in LLMs has a unique functionality and collectively contributes to the overall behavior of the model. Similarly, we observe that specific heads are closely tied to long-context retrieval, showing positive or negative correlation with retrieval scores. Built on this insight, we propose a learning-based mechanism using zero-shot generated data to emphasize these heads, improving the model's performance in long-context retrieval tasks. By applying SEAL, we can achieve significant improvements in in-domain retrieval performance, including document QA tasks from LongBench, and considerable improvements in out-of-domain cases. Additionally, when combined with existing training-free context extension techniques, SEAL extends the context limits of LLMs while maintaining highly reliable outputs, opening new avenues for research in this field.
Abstract（参考訳）: 本研究では,拡張文脈上での大規模言語モデル(LLM)の検索性能を向上させるSEAL(Scaling to Em emphasissize Attention for Long-context Search)という新しい手法を提案する。これまでの研究では、LLMの各アテンションヘッドにはユニークな機能があり、モデル全体の挙動に一括して寄与することが示されている。同様に、特定の頭部は長文検索と密接に結びついており、検索スコアと正あるいは負の相関を示す。この知見に基づいて,ゼロショット生成データを用いた学習機構を提案し,長文検索タスクにおけるモデルの性能を向上させる。 SEALを適用することで、LongBenchの文書QAタスクやドメイン外ケースの大幅な改善など、ドメイン内検索性能の大幅な改善が達成できる。さらに、既存のトレーニングフリーコンテキスト拡張技術と組み合わせて、SEALは信頼性の高い出力を維持しながらLLMのコンテキスト制限を拡張し、この分野の研究のための新たな道を開く。

関連論文リスト

Long-Short Alignment for Effective Long-Context Modeling in LLMs [32.13785291956956]
大きな言語モデル(LLM)は、驚くべきパフォーマンスと驚くべき創発的な特性を示しています。長さの一般化 -- トレーニング中に見られるものよりも長いシーケンスに一般化する能力 -- は、古典的で基本的な問題である。 textbflong-shortアライメント -- 長さの異なるシーケンス間の出力分布の一貫性 -- の重要な役割を強調します。
論文参考訳（メタデータ） (2025-06-13T13:25:39Z)
Estimating Optimal Context Length for Hybrid Retrieval-augmented Multi-document Summarization [5.856976164399712]
本稿では,検索拡張システムと,最近の言語モデルでサポートされている長文ウィンドウを組み合わせたハイブリッド手法を提案する。マルチドキュメント要約タスクの結果は,モデルクラスとサイズにまたがって,本手法の有効性を示す。
論文参考訳（メタデータ） (2025-04-17T14:24:51Z)
Training a Utility-based Retriever Through Shared Context Attribution for Retrieval-Augmented Language Models [51.608246558235166]
SCARLetは、RALMsでユーティリティベースのレトリバーをトレーニングするためのフレームワークである。マルチタスクの一般化とパッセージ間相互作用という2つの重要な要素が組み込まれている。ドメイン内とドメイン外の両方で、さまざまなタスクにまたがる10のデータセットに対するアプローチを評価します。
論文参考訳（メタデータ） (2025-04-01T09:28:28Z)
LADM: Long-context Training Data Selection with Attention-based Dependency Measurement for LLMs [8.34562564266839]
LLM(Large Language Models)の分野では、長いコンテキストモデリングがますます注目を集めている。意識に基づく依存度測定(LADM)を用いたLong-contextデータ選択フレームワークを提案する。 LADMは大規模マルチドメイン事前学習コーパスから高品質の長文データを効率的に識別することができる。
論文参考訳（メタデータ） (2025-03-04T11:10:13Z)
Does RAG Really Perform Bad For Long-Context Processing? [15.889864680212147]
RetroLMは長文処理のための新しいフレームワークである。従来の方法とは異なり、RetroLMはKVレベルの検索拡張を採用している。この枠組みに基づいて,臨界ページの正確な検索を行うための特殊検索器を開発した。
論文参考訳（メタデータ） (2025-02-17T05:02:25Z)
Large Language Models Can Self-Improve in Long-context Reasoning [100.52886241070907]
大規模言語モデル(LLM)は、長いコンテキストの処理においてかなりの進歩を遂げているが、それでも長いコンテキストの推論に苦慮している。我々はこの目的のために特別に設計されたアプローチである我々の提案する。人類の専門家や先進的なモデルによるデータに依存する従来のアプローチと比べて優れたパフォーマンスを達成しています
論文参考訳（メタデータ） (2024-11-12T19:53:00Z)
Reducing Distraction in Long-Context Language Models by Focused Learning [6.803882766744194]
本稿では,大規模言語モデルの関連情報を識別する能力を高める新しい学習手法を提案する。長いコンテキストで微調整を行う際、最も関連性の高いセグメントを抽出するために検索器を用いる。次に、元のコンテキストと検索したサブコンテキストからの出力が密接に一致していることを明確にするために、補助的なコントラスト学習対象を導入する。
論文参考訳（メタデータ） (2024-11-08T19:27:42Z)
What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文参考訳（メタデータ） (2024-10-31T09:39:28Z)
LongReward: Improving Long-context Large Language Models with AI Feedback [54.3321542678909]
LongRewardは、4次元の長文モデル応答に対して報酬を与える新しい方法である。実験の結果,LongRewardはモデル長文性能を大幅に向上するだけでなく,短い命令に従う能力も向上することがわかった。
論文参考訳（メタデータ） (2024-10-28T17:50:42Z)
Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文参考訳（メタデータ） (2024-10-17T17:16:00Z)
ALR$^2$: A Retrieve-then-Reason Framework for Long-context Question Answering [42.146660039671076]
我々は,大規模言語モデル(LLM)のための検索・推論フレームワークを開発した。現代のLLMは、関連した事実を正確に回収するのに苦労し、代わりにしばしば「検索された事実」を幻覚させる。本稿では,LLMの長文推論能力を明示的な2段階手順で拡張する手法であるALR$2$を紹介する。
論文参考訳（メタデータ） (2024-10-04T08:29:12Z)
A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文参考訳（メタデータ） (2024-09-18T17:53:17Z)
Large Language Models as Foundations for Next-Gen Dense Retrieval: A Comprehensive Empirical Assessment [16.39696580487218]
BERTやT5のような事前訓練された言語モデルは、高密度検索のための重要なバックボーンエンコーダとして機能する。近年,大規模言語モデル (LLM) をレトリバーとして使用し,様々なタスクでSOTA性能を達成している。
論文参考訳（メタデータ） (2024-08-22T08:16:07Z)
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文参考訳（メタデータ） (2024-06-25T09:42:56Z)
LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。我々は合成データを作成する2つの新しい方法を開発した。 LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-06-02T03:34:41Z)
Benchmarking General-Purpose In-Context Learning [19.40952728849431]
In-context Learning (ICL) は、生成モデルに新しいタスクを効果的に、かつ効率的にオンザフライで対処する権限を与える。本稿では,より広い範囲の課題に対処するためのICLの拡張について検討する。 GPICLの機能のトレーニングと評価に特化して開発されたベンチマークを2つ導入する。
論文参考訳（メタデータ） (2024-05-27T14:50:42Z)
Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文参考訳（メタデータ） (2024-05-07T01:56:22Z)
Structured Packing in LLM Training Improves Long Context Utilization [11.484631908171465]
本研究では,意味的相互依存を高めるための学習データの構造化について検討する。本研究では,SPLiCe(Structured Packing for Long Context)法を提案する。我々はSPLiCeを様々なサイズのモデルで実証的に検証した。
論文参考訳（メタデータ） (2023-12-28T16:25:52Z)
Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文参考訳（メタデータ） (2023-09-27T21:41:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。