論文の概要: Fortify the Shortest Stave in Attention: Enhancing Context Awareness of
Large Language Models for Effective Tool Use
- arxiv url: http://arxiv.org/abs/2312.04455v1
- Date: Thu, 7 Dec 2023 17:24:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:56:22.374457
- Title: Fortify the Shortest Stave in Attention: Enhancing Context Awareness of
Large Language Models for Effective Tool Use
- Title(参考訳): 注意の最も短い場所の強化:効果的なツール利用のための大規模言語モデルの文脈認識の強化
- Authors: Yuhan Chen, Ang Lv, Ting-En Lin, Changyu Chen, Yuchuan Wu, Fei Huang,
Yongbin Li and Rui Yan
- Abstract要約: 我々は、モデルのアテンションアロケーションにおける波形パターンが、ツールの使用パフォーマンスに与える影響を論じる。
本稿では,アテンション・バケットという新しい推論手法を提案する。
広く知られているツール利用ベンチマークの実験は、我々のアプローチの有効性を実証している。
- 参考スコア(独自算出の注目度): 77.93977606672516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have significantly
expanded their functionality and skills as tool agents. In this paper, we argue
that a waveform pattern in the model's attention allocation has an impact on
the tool use performance, which degrades when the position of essential
information hits the trough zone. To address this issue, we propose a novel
inference method named Attention Buckets. This approach enables LLMs to handle
context by conducting parallel processes, each featuring a unique RoPE angle
base that shapes the attention waveform. Attention Buckets ensures that an
attention trough of a particular process can be compensated with an attention
peak of another run, reducing the risk of the LLM missing essential information
residing within the attention trough. Our extensive experiments on the widely
recognized tool use benchmark demonstrate the efficacy of our approach, where a
7B-parameter open-source model enhanced by Attention Buckets achieves SOTA
performance on par with GPT-4.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、ツールエージェントとしての機能とスキルを大幅に拡張した。
本稿では,モデルの注意配置における波形パターンがツールの使用性能に影響を与え,本質的情報の位置がトラフゾーンに達すると劣化すると主張する。
この問題に対処するため,Attention Bucketsという新しい推論手法を提案する。
このアプローチにより、LLMは並列プロセスを実行することでコンテキストを処理することができ、それぞれが注目波形を形成する独自のRoPEアングルベースを備える。
アテンション・バケットは、特定のプロセスのアテンション・トラフが他のランのアテンション・ピークに補償されることを保証し、アテンション・トラフ内に存在する必須情報を欠いているLLMのリスクを低減する。
広範に認識されているツール利用ベンチマーク実験により,GPT-4と同等のSOTA性能を実現する7Bパラメータオープンソースモデルの有効性が示された。
関連論文リスト
- Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - Model Tells Itself Where to Attend: Faithfulness Meets Automatic Attention Steering [108.2131720470005]
大規模言語モデル(LLM)は、様々な現実世界のタスクで顕著なパフォーマンスを示している。
彼らはしばしば、入力コンテキストを完全に理解し、効果的に利用するのに苦労し、不信または幻覚的な反応をもたらす。
本稿では,重要な文脈情報を自動的に識別し,LLMの注意点を制御して強調する手法であるAutoPASTAを提案する。
論文 参考訳(メタデータ) (2024-09-16T23:52:41Z) - Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration [15.36841874118801]
我々は,大規模言語モデル(LLM)における注意シンクの存在をより深く理解することを目的としている。
本研究では,入力適応方式で推論中のハエの注意分布を自動的に最適化する訓練自由注意法(ACT)を提案する。
ACTは、Llama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
論文 参考訳(メタデータ) (2024-06-22T07:00:43Z) - Elliptical Attention [1.7597562616011944]
Pairwise dot-product self-attentionは、言語やビジョンにおける様々なアプリケーションで最先端のパフォーマンスを実現するトランスフォーマーの成功の鍵である。
本稿では,マハラノビス距離計を用いて注意重みの計算を行い,その基礎となる特徴空間を文脈的関連性の高い方向に拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-19T18:38:11Z) - Extending Token Computation for LLM Reasoning [5.801044612920816]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な要素である。
LLMは、非効率な注意分布のため、複雑な推論タスクに苦しむことが多い。
本稿では,アテンション機構の最適化を利用して,計算トークンをChain-of-Thoughtプロセスで拡張する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-22T03:23:58Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Generic Attention-model Explainability by Weighted Relevance
Accumulation [9.816810016935541]
本稿では,トークン値の重要性を考慮に入れた重み付き関連性戦略を提案する。
提案手法を評価するために,CLIPをベースとした2段階モデルCLIPmapperを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:02:30Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。