論文の概要: Fortify the Shortest Stave in Attention: Enhancing Context Awareness of
Large Language Models for Effective Tool Use
- arxiv url: http://arxiv.org/abs/2312.04455v3
- Date: Fri, 1 Mar 2024 07:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 14:00:13.366911
- Title: Fortify the Shortest Stave in Attention: Enhancing Context Awareness of
Large Language Models for Effective Tool Use
- Title(参考訳): 注意の最も短い場所の強化:効果的なツール利用のための大規模言語モデルの文脈認識の強化
- Authors: Yuhan Chen, Ang Lv, Ting-En Lin, Changyu Chen, Yuchuan Wu, Fei Huang,
Yongbin Li and Rui Yan
- Abstract要約: 大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
- 参考スコア(独自算出の注目度): 77.93977606672516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we demonstrate that an inherent waveform pattern in the
attention allocation of large language models (LLMs) significantly affects
their performance in tasks demanding a high degree of context awareness, such
as utilizing LLMs for tool-use. Specifically, the crucial information in the
context will be potentially overlooked by model when it is positioned in the
trough zone of the attention waveform, leading to decreased performance. To
address this issue, we propose a novel inference method named Attention
Buckets. It allows LLMs to process their input through multiple parallel
processes. Each process utilizes a distinct base angle for the rotary position
embedding, thereby creating a unique attention waveform. By compensating an
attention trough of a particular process with an attention peak of another
process, our approach enhances LLM's awareness to various contextual positions,
thus mitigating the risk of overlooking crucial information. In the largest
tool-use benchmark, our method elevates a 7B model to achieve state-of-the-art
performance, comparable to that of GPT-4. On other benchmarks and some RAG
tasks, which also demand a thorough understanding of contextual content,
Attention Buckets also exhibited notable enhancements in performance.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の注意配分における固有波形パターンが,ツール利用におけるLLMの利用など,文脈認識の高度化を求めるタスクにおいて,その性能に著しく影響を及ぼすことを示す。
具体的には、注意波形のトラフゾーンに位置する場合、文脈における重要な情報はモデルによって見落とされ、性能が低下する可能性がある。
この問題に対処するため,Attention Bucketsという新しい推論手法を提案する。
LLMは複数の並列プロセスを通じて入力を処理できる。
各プロセスは回転位置埋め込みに異なる基底角を利用し、ユニークな注意波形を生成する。
本手法は,特定のプロセスの注目トラフを他のプロセスの注目ピークに補正することにより,LLMの様々な文脈的位置への意識を高め,重要な情報を見越すリスクを軽減する。
ツール・ユース・ベンチマークでは,GPT-4に匹敵する7Bモデルで最先端の性能を実現する。
他のベンチマークやragタスクでは、コンテクストコンテンツの徹底的な理解を必要とするため、アテンションバケットもパフォーマンスが著しく向上している。
関連論文リスト
- C-ICL: Contrastive In-context Learning for Information Extraction [44.08005184704089]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Generic Attention-model Explainability by Weighted Relevance
Accumulation [9.816810016935541]
本稿では,トークン値の重要性を考慮に入れた重み付き関連性戦略を提案する。
提案手法を評価するために,CLIPをベースとした2段階モデルCLIPmapperを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:02:30Z) - Paying More Attention to Self-attention: Improving Pre-trained Language
Models via Attention Guiding [35.958164594419515]
事前学習された言語モデル(PLM)は、幅広い情報検索や自然言語処理タスクに有効であることを示した。
PLMの中核として、多頭自尊心は、異なる位置からの情報に共同で出席する能力に訴えている。
本稿では,2種類の注意誘導手法,すなわち地図識別誘導法(MDG)と注意パターンデコリレーション誘導法(PDG)を提案する。
論文 参考訳(メタデータ) (2022-04-06T16:22:02Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - Repulsive Attention: Rethinking Multi-head Attention as Bayesian
Inference [68.12511526813991]
ベイズの視点からの多面的注目の新たな理解を提供する。
マルチヘッドアテンションにおける反発性を明示的に改善する非パラメトリックアプローチを提案する。
様々な注意モデルや応用実験により、提案された反発的注意が学習された特徴の多様性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-09-20T06:32:23Z) - A Simple and Effective Self-Supervised Contrastive Learning Framework
for Aspect Detection [15.36713547251997]
UADタスクのための新しいスムーズな自己意識(SSA)モジュールを備えた自己教師付きコントラスト学習フレームワークとアテンションベースモデルを提案する。
提案手法は, 公開されているベンチマークユーザレビューデータセットにおいて, 教師なし, 弱教師付きアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-18T22:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。