論文の概要: Fortify the Shortest Stave in Attention: Enhancing Context Awareness of
Large Language Models for Effective Tool Use
- arxiv url: http://arxiv.org/abs/2312.04455v1
- Date: Thu, 7 Dec 2023 17:24:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:56:22.374457
- Title: Fortify the Shortest Stave in Attention: Enhancing Context Awareness of
Large Language Models for Effective Tool Use
- Title(参考訳): 注意の最も短い場所の強化:効果的なツール利用のための大規模言語モデルの文脈認識の強化
- Authors: Yuhan Chen, Ang Lv, Ting-En Lin, Changyu Chen, Yuchuan Wu, Fei Huang,
Yongbin Li and Rui Yan
- Abstract要約: 我々は、モデルのアテンションアロケーションにおける波形パターンが、ツールの使用パフォーマンスに与える影響を論じる。
本稿では,アテンション・バケットという新しい推論手法を提案する。
広く知られているツール利用ベンチマークの実験は、我々のアプローチの有効性を実証している。
- 参考スコア(独自算出の注目度): 77.93977606672516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have significantly
expanded their functionality and skills as tool agents. In this paper, we argue
that a waveform pattern in the model's attention allocation has an impact on
the tool use performance, which degrades when the position of essential
information hits the trough zone. To address this issue, we propose a novel
inference method named Attention Buckets. This approach enables LLMs to handle
context by conducting parallel processes, each featuring a unique RoPE angle
base that shapes the attention waveform. Attention Buckets ensures that an
attention trough of a particular process can be compensated with an attention
peak of another run, reducing the risk of the LLM missing essential information
residing within the attention trough. Our extensive experiments on the widely
recognized tool use benchmark demonstrate the efficacy of our approach, where a
7B-parameter open-source model enhanced by Attention Buckets achieves SOTA
performance on par with GPT-4.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、ツールエージェントとしての機能とスキルを大幅に拡張した。
本稿では,モデルの注意配置における波形パターンがツールの使用性能に影響を与え,本質的情報の位置がトラフゾーンに達すると劣化すると主張する。
この問題に対処するため,Attention Bucketsという新しい推論手法を提案する。
このアプローチにより、LLMは並列プロセスを実行することでコンテキストを処理することができ、それぞれが注目波形を形成する独自のRoPEアングルベースを備える。
アテンション・バケットは、特定のプロセスのアテンション・トラフが他のランのアテンション・ピークに補償されることを保証し、アテンション・トラフ内に存在する必須情報を欠いているLLMのリスクを低減する。
広範に認識されているツール利用ベンチマーク実験により,GPT-4と同等のSOTA性能を実現する7Bパラメータオープンソースモデルの有効性が示された。
関連論文リスト
- C-ICL: Contrastive In-context Learning for Information Extraction [44.08005184704089]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Generic Attention-model Explainability by Weighted Relevance
Accumulation [9.816810016935541]
本稿では,トークン値の重要性を考慮に入れた重み付き関連性戦略を提案する。
提案手法を評価するために,CLIPをベースとした2段階モデルCLIPmapperを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:02:30Z) - Paying More Attention to Self-attention: Improving Pre-trained Language
Models via Attention Guiding [35.958164594419515]
事前学習された言語モデル(PLM)は、幅広い情報検索や自然言語処理タスクに有効であることを示した。
PLMの中核として、多頭自尊心は、異なる位置からの情報に共同で出席する能力に訴えている。
本稿では,2種類の注意誘導手法,すなわち地図識別誘導法(MDG)と注意パターンデコリレーション誘導法(PDG)を提案する。
論文 参考訳(メタデータ) (2022-04-06T16:22:02Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - Repulsive Attention: Rethinking Multi-head Attention as Bayesian
Inference [68.12511526813991]
ベイズの視点からの多面的注目の新たな理解を提供する。
マルチヘッドアテンションにおける反発性を明示的に改善する非パラメトリックアプローチを提案する。
様々な注意モデルや応用実験により、提案された反発的注意が学習された特徴の多様性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-09-20T06:32:23Z) - A Simple and Effective Self-Supervised Contrastive Learning Framework
for Aspect Detection [15.36713547251997]
UADタスクのための新しいスムーズな自己意識(SSA)モジュールを備えた自己教師付きコントラスト学習フレームワークとアテンションベースモデルを提案する。
提案手法は, 公開されているベンチマークユーザレビューデータセットにおいて, 教師なし, 弱教師付きアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-18T22:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。