論文の概要: Attention Sorting Combats Recency Bias In Long Context Language Models
- arxiv url: http://arxiv.org/abs/2310.01427v1
- Date: Thu, 28 Sep 2023 05:19:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-08 10:57:24.870636
- Title: Attention Sorting Combats Recency Bias In Long Context Language Models
- Title(参考訳): 長文文脈言語モデルにおける注意ソートが正規バイアスと戦う
- Authors: Alexander Peysakhovich, Adam Lerer
- Abstract要約: 現在の言語モデルは、世代間の長いコンテキストを効率的に組み込むことができないことが多い。
この問題に対する主要なコントリビュータは,事前トレーニング中に学んだと思われる注意点である。
我々は、この事実を活用して注意ソートを導入する:1ステップのデコードを実行し、それらが受け取った注意によって文書をソートし、プロセスを繰り返し、新しくソートされたコンテキストで回答を生成する。
- 参考スコア(独自算出の注目度): 69.06809365227504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current language models often fail to incorporate long contexts efficiently
during generation. We show that a major contributor to this issue are attention
priors that are likely learned during pre-training: relevant information
located earlier in context is attended to less on average. Yet even when models
fail to use the information from a relevant document in their response, they
still pay preferential attention to that document compared to an irrelevant
document at the same position. We leverage this fact to introduce ``attention
sorting'': perform one step of decoding, sort documents by the attention they
receive (highest attention going last), repeat the process, generate the answer
with the newly sorted context. We find that attention sorting improves
performance of long context models. Our findings highlight some challenges in
using off-the-shelf language models for retrieval augmented generation.
- Abstract(参考訳): 現在の言語モデルは、世代の間に長い文脈を効率的に取り入れられないことが多い。
この問題の主な貢献者は、事前トレーニング中に学習される可能性のある注意優先事項であることを示している。
しかし、モデルが関連する文書の情報を使用していない場合でも、同じ位置にある無関係な文書と比較して、その文書に優先的に注意を払う。
我々は、この事実を利用して`attention sorting''を導入する:デコーディングの1つのステップを実行し、受け取った注意によってドキュメントをソートする(最後に最も注意を払う)、プロセスを繰り返す、新しくソートされたコンテキストで応答を生成する。
注意のソートが長いコンテキストモデルのパフォーマンスを向上させることが分かりました。
本研究は, 既成言語モデルを用いた検索拡張生成における課題を浮き彫りにした。
関連論文リスト
- In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Lost in the Middle: How Language Models Use Long Contexts [88.78803442320246]
本研究では,言語モデルの性能を2つのタスクで解析する。
関連する情報の位置を変えると,性能が著しく低下することがわかった。
我々の分析は、言語モデルが入力コンテキストをどのように使用するかをよりよく理解し、将来の長文言語モデルのための新しい評価プロトコルを提供する。
論文 参考訳(メタデータ) (2023-07-06T17:54:11Z) - Extending an Event-type Ontology: Adding Verbs and Classes Using
Fine-tuned LLMs Suggestions [0.0]
語彙拡張タスクに先進的な機械学習手法を用いて事前アノテートしたデータについて検討した。
自動スコアと人間のアノテーションの相関について検討した。
相関性は強いが, アノテーションの固有性に対する影響は, ほぼ線形性から緩やかである。
論文 参考訳(メタデータ) (2023-06-03T14:57:47Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - Large Language Models Can Be Easily Distracted by Irrelevant Context [29.315230178997002]
本研究では,モデル解の精度が無関係な文脈によってどのように影響されるかを検討する。
我々は,大規模言語モデルにおける最先端のプロンプト手法の散らかしやすさをベンチマークで測定する。
論文 参考訳(メタデータ) (2023-01-31T20:48:57Z) - Word Order Does Matter (And Shuffled Language Models Know It) [9.990431777927421]
近年の研究では、ランダムに置換された文に対して事前訓練および/または微調整された言語モデルがGLUE上での競合性能を示すことが示されている。
シャッフルテキストエンコードから得られた位置埋め込みについて検討し、これらのモデルが元の自然主義的な単語順序に関する情報を保持することを示す。
論文 参考訳(メタデータ) (2022-03-21T14:10:15Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。