論文の概要: Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use
- arxiv url: http://arxiv.org/abs/2312.04455v4
- Date: Tue, 4 Jun 2024 07:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 13:47:23.473499
- Title: Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use
- Title(参考訳): 留意点を最短にする: ツールを効果的に活用するための大規模言語モデルの文脈認識の強化
- Authors: Yuhan Chen, Ang Lv, Ting-En Lin, Changyu Chen, Yuchuan Wu, Fei Huang, Yongbin Li, Rui Yan,
- Abstract要約: 大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
- 参考スコア(独自算出の注目度): 74.72150542395487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we demonstrate that an inherent waveform pattern in the attention allocation of large language models (LLMs) significantly affects their performance in tasks demanding a high degree of context awareness, such as utilizing LLMs for tool-use. Specifically, the crucial information in the context will be potentially overlooked by model when it is positioned in the trough zone of the attention waveform, leading to decreased performance. To address this issue, we propose a novel inference method named Attention Buckets. It allows LLMs to process their input through multiple parallel processes. Each process utilizes a distinct base angle for the rotary position embedding, thereby creating a unique attention waveform. By compensating an attention trough of a particular process with an attention peak of another process, our approach enhances LLM's awareness to various contextual positions, thus mitigating the risk of overlooking crucial information. In the largest tool-use benchmark, our method elevates a 7B model to achieve state-of-the-art performance, comparable to that of GPT-4. On other benchmarks and some RAG tasks, which also demand a thorough understanding of contextual content, Attention Buckets also exhibited notable enhancements in performance.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の注意配分における固有波形パターンが,ツール利用におけるLLMの利用など,文脈認識の高度化を求めるタスクにおいて,その性能に著しく影響を及ぼすことを示す。
具体的には、注意波形のトラフゾーンに位置する場合、文脈における重要な情報はモデルによって見落とされ、性能が低下する可能性がある。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
LLMは複数の並列プロセスを通じて入力を処理できる。
各プロセスは回転位置埋め込みに異なる基底角を利用し、ユニークな注意波形を生成する。
本手法は,特定のプロセスの注目トラフを他のプロセスの注目ピークに補正することにより,LLMの様々な文脈的位置への意識を高め,重要な情報を見越すリスクを軽減する。
ツール・ユース・ベンチマークでは,GPT-4に匹敵する最先端性能を実現するため,提案手法は7Bモデルに上昇する。
他のベンチマークやいくつかのRAGタスクでは、コンテクストの内容の徹底的な理解も要求されるが、Attention Buckets氏はパフォーマンスの顕著な向上も示した。
関連論文リスト
- Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - Model Tells Itself Where to Attend: Faithfulness Meets Automatic Attention Steering [108.2131720470005]
大規模言語モデル(LLM)は、様々な現実世界のタスクで顕著なパフォーマンスを示している。
彼らはしばしば、入力コンテキストを完全に理解し、効果的に利用するのに苦労し、不信または幻覚的な反応をもたらす。
本稿では,重要な文脈情報を自動的に識別し,LLMの注意点を制御して強調する手法であるAutoPASTAを提案する。
論文 参考訳(メタデータ) (2024-09-16T23:52:41Z) - Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration [15.36841874118801]
我々は,大規模言語モデル(LLM)における注意シンクの存在をより深く理解することを目的としている。
本研究では,入力適応方式で推論中のハエの注意分布を自動的に最適化する訓練自由注意法(ACT)を提案する。
ACTは、Llama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
論文 参考訳(メタデータ) (2024-06-22T07:00:43Z) - Elliptical Attention [1.7597562616011944]
Pairwise dot-product self-attentionは、言語やビジョンにおける様々なアプリケーションで最先端のパフォーマンスを実現するトランスフォーマーの成功の鍵である。
本稿では,マハラノビス距離計を用いて注意重みの計算を行い,その基礎となる特徴空間を文脈的関連性の高い方向に拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-19T18:38:11Z) - Extending Token Computation for LLM Reasoning [5.801044612920816]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な要素である。
LLMは、非効率な注意分布のため、複雑な推論タスクに苦しむことが多い。
本稿では,アテンション機構の最適化を利用して,計算トークンをChain-of-Thoughtプロセスで拡張する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-22T03:23:58Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Generic Attention-model Explainability by Weighted Relevance
Accumulation [9.816810016935541]
本稿では,トークン値の重要性を考慮に入れた重み付き関連性戦略を提案する。
提案手法を評価するために,CLIPをベースとした2段階モデルCLIPmapperを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:02:30Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。