Fugu-MT 論文翻訳(概要): Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use

論文の概要: Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use

arxiv url: http://arxiv.org/abs/2312.04455v2
Date: Sun, 11 Feb 2024 13:01:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 21:18:50.786932
Title: Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use
Title（参考訳）: 注意の最も短い場所の強化:効果的なツール利用のための大規模言語モデルの文脈認識の強化
Authors: Yuhan Chen, Ang Lv, Ting-En Lin, Changyu Chen, Yuchuan Wu, Fei Huang, Yongbin Li and Rui Yan
Abstract要約: 大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
参考スコア（独自算出の注目度）: 77.93977606672516
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we demonstrate that an inherent waveform pattern in the attention allocation of large language models (LLMs) significantly affects their performance in tasks demanding a high degree of context awareness, such as utilizing LLMs for tool-use. Specifically, the crucial information in the context will be potentially overlooked by model when it is positioned in the trough zone of the attention waveform, leading to decreased performance. To address this issue, we propose a novel inference method named Attention Buckets. It allows LLMs to process their input through multiple parallel processes. Each process utilizes a distinct base angle for the rotary position embedding, thereby creating a unique attention waveform. By compensating an attention trough of a particular process with an attention peak of another process, our approach enhances LLM's awareness to various contextual positions, thus mitigating the risk of overlooking crucial information. In the largest tool-use benchmark, our method elevates a 7B model to achieve state-of-the-art performance, comparable to that of GPT-4. On other benchmarks and some RAG tasks, which also demand a thorough understanding of contextual content, Attention Buckets also exhibited notable enhancements in performance.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)の注意配分における固有波形パターンが,ツール利用におけるLLMの利用など,文脈認識の高度化を求めるタスクにおいて,その性能に著しく影響を及ぼすことを示す。具体的には、注意波形のトラフゾーンに位置する場合、文脈における重要な情報はモデルによって見落とされ、性能が低下する可能性がある。この問題に対処するため,Attention Bucketsという新しい推論手法を提案する。 LLMは複数の並列プロセスを通じて入力を処理できる。各プロセスは回転位置埋め込みに異なる基底角を利用し、ユニークな注意波形を生成する。本手法は,特定のプロセスの注目トラフを他のプロセスの注目ピークに補正することにより,LLMの様々な文脈的位置への意識を高め,重要な情報を見越すリスクを軽減する。ツール・ユース・ベンチマークでは,GPT-4に匹敵する7Bモデルで最先端の性能を実現する。他のベンチマークやragタスクでは、コンテクストコンテンツの徹底的な理解を必要とするため、アテンションバケットもパフォーマンスが著しく向上している。

関連論文リスト

Artifacts and Attention Sinks: Structured Approximations for Efficient Vision Transformers [8.486148475471271]
ビジョントランスフォーマーは幅広いアプリケーションにまたがる強力なツールとして登場したが、内部の動作は部分的にしか理解されていない。大量のトークン – 注目シンクとして機能する極めて高いアクティベーション規範を持つトークン – と,推論中に副産物として現れるアーティファクトトークン – の現象について検討する。我々は、線形時間と空間における自己注意を近似する訓練不要なFast Nystr"om Attention (FNA)を導入する。
論文参考訳（メタデータ） (2025-07-21T19:29:03Z)
Multi-Token Attention [42.038277620194]
本稿では,複数クエリとキーベクトルを同時に重み付けできる新しいアテンション手法であるMulti-Token Attention (MTA)を提案する。提案手法は, 1つのベクトルの容量を超えるような, より豊かでニュアンスの高い情報を用いて, 関連するコンテキストを特定できる。
論文参考訳（メタデータ） (2025-04-01T15:59:32Z)
Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language Models [32.71672086718058]
CoT (Few-shot Chain-of-Thought) は大規模言語モデル (LLM) の推論能力を著しく向上させる我々は、COTのデモで分離されたセグメント、単語、トークンが、予期せずLCMの生成過程を乱す可能性があることを観察する。デモの注意パターンを動的に解析し,これらのトークンを正確に識別するFew-shot Attention Intervention法(FAI)を提案する。
論文参考訳（メタデータ） (2025-03-14T07:46:33Z)
Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文参考訳（メタデータ） (2025-03-11T11:52:37Z)
AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-06T13:41:46Z)
A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。 i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文参考訳（メタデータ） (2024-12-04T13:56:44Z)
Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文参考訳（メタデータ） (2024-11-11T02:47:05Z)
Model Tells Itself Where to Attend: Faithfulness Meets Automatic Attention Steering [108.2131720470005]
大規模言語モデル(LLM)は、様々な現実世界のタスクで顕著なパフォーマンスを示している。彼らはしばしば、入力コンテキストを完全に理解し、効果的に利用するのに苦労し、不信または幻覚的な反応をもたらす。本稿では,重要な文脈情報を自動的に識別し,LLMの注意点を制御して強調する手法であるAutoPASTAを提案する。
論文参考訳（メタデータ） (2024-09-16T23:52:41Z)
Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration [15.36841874118801]
我々は,大規模言語モデル(LLM)における注意シンクの存在をより深く理解することを目的としている。本研究では,入力適応方式で推論中のハエの注意分布を自動的に最適化する訓練自由注意法(ACT)を提案する。 ACTは、Llama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
論文参考訳（メタデータ） (2024-06-22T07:00:43Z)
Elliptical Attention [1.7597562616011944]
Pairwise dot-product self-attentionは、言語やビジョンにおける様々なアプリケーションで最先端のパフォーマンスを実現するトランスフォーマーの成功の鍵である。本稿では,マハラノビス距離計を用いて注意重みの計算を行い,その基礎となる特徴空間を文脈的関連性の高い方向に拡張することを提案する。
論文参考訳（メタデータ） (2024-06-19T18:38:11Z)
Extending Token Computation for LLM Reasoning [5.801044612920816]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な要素である。 LLMは、非効率な注意分布のため、複雑な推論タスクに苦しむことが多い。本稿では,アテンション機構の最適化を利用して,計算トークンをChain-of-Thoughtプロセスで拡張する新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-22T03:23:58Z)
C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-02-17T11:28:08Z)
Generic Attention-model Explainability by Weighted Relevance Accumulation [9.816810016935541]
本稿では,トークン値の重要性を考慮に入れた重み付き関連性戦略を提案する。提案手法を評価するために,CLIPをベースとした2段階モデルCLIPmapperを提案する。
論文参考訳（メタデータ） (2023-08-20T12:02:30Z)
Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文参考訳（メタデータ） (2023-05-22T13:18:17Z)
Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-08T17:00:26Z)
Heterogeneous Contrastive Learning: Encoding Spatial Information for Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文参考訳（メタデータ） (2020-11-19T16:26:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。