Fugu-MT 論文翻訳(概要): Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use

論文の概要: Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use

arxiv url: http://arxiv.org/abs/2312.04455v1
Date: Thu, 7 Dec 2023 17:24:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 13:56:22.374457
Title: Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use
Title（参考訳）: 注意の最も短い場所の強化:効果的なツール利用のための大規模言語モデルの文脈認識の強化
Authors: Yuhan Chen, Ang Lv, Ting-En Lin, Changyu Chen, Yuchuan Wu, Fei Huang, Yongbin Li and Rui Yan
Abstract要約: 我々は、モデルのアテンションアロケーションにおける波形パターンが、ツールの使用パフォーマンスに与える影響を論じる。本稿では,アテンション・バケットという新しい推論手法を提案する。広く知られているツール利用ベンチマークの実験は、我々のアプローチの有効性を実証している。
参考スコア（独自算出の注目度）: 77.93977606672516
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in large language models (LLMs) have significantly expanded their functionality and skills as tool agents. In this paper, we argue that a waveform pattern in the model's attention allocation has an impact on the tool use performance, which degrades when the position of essential information hits the trough zone. To address this issue, we propose a novel inference method named Attention Buckets. This approach enables LLMs to handle context by conducting parallel processes, each featuring a unique RoPE angle base that shapes the attention waveform. Attention Buckets ensures that an attention trough of a particular process can be compensated with an attention peak of another run, reducing the risk of the LLM missing essential information residing within the attention trough. Our extensive experiments on the widely recognized tool use benchmark demonstrate the efficacy of our approach, where a 7B-parameter open-source model enhanced by Attention Buckets achieves SOTA performance on par with GPT-4.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、ツールエージェントとしての機能とスキルを大幅に拡張した。本稿では,モデルの注意配置における波形パターンがツールの使用性能に影響を与え,本質的情報の位置がトラフゾーンに達すると劣化すると主張する。この問題に対処するため,Attention Bucketsという新しい推論手法を提案する。このアプローチにより、LLMは並列プロセスを実行することでコンテキストを処理することができ、それぞれが注目波形を形成する独自のRoPEアングルベースを備える。アテンション・バケットは、特定のプロセスのアテンション・トラフが他のランのアテンション・ピークに補償されることを保証し、アテンション・トラフ内に存在する必須情報を欠いているLLMのリスクを低減する。広範に認識されているツール利用ベンチマーク実験により,GPT-4と同等のSOTA性能を実現する7Bパラメータオープンソースモデルの有効性が示された。

関連論文リスト

Artifacts and Attention Sinks: Structured Approximations for Efficient Vision Transformers [8.486148475471271]
ビジョントランスフォーマーは幅広いアプリケーションにまたがる強力なツールとして登場したが、内部の動作は部分的にしか理解されていない。大量のトークン – 注目シンクとして機能する極めて高いアクティベーション規範を持つトークン – と,推論中に副産物として現れるアーティファクトトークン – の現象について検討する。我々は、線形時間と空間における自己注意を近似する訓練不要なFast Nystr"om Attention (FNA)を導入する。
論文参考訳（メタデータ） (2025-07-21T19:29:03Z)
Multi-Token Attention [42.038277620194]
本稿では,複数クエリとキーベクトルを同時に重み付けできる新しいアテンション手法であるMulti-Token Attention (MTA)を提案する。提案手法は, 1つのベクトルの容量を超えるような, より豊かでニュアンスの高い情報を用いて, 関連するコンテキストを特定できる。
論文参考訳（メタデータ） (2025-04-01T15:59:32Z)
Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language Models [32.71672086718058]
CoT (Few-shot Chain-of-Thought) は大規模言語モデル (LLM) の推論能力を著しく向上させる我々は、COTのデモで分離されたセグメント、単語、トークンが、予期せずLCMの生成過程を乱す可能性があることを観察する。デモの注意パターンを動的に解析し,これらのトークンを正確に識別するFew-shot Attention Intervention法(FAI)を提案する。
論文参考訳（メタデータ） (2025-03-14T07:46:33Z)
Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文参考訳（メタデータ） (2025-03-11T11:52:37Z)
AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-06T13:41:46Z)
A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。 i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文参考訳（メタデータ） (2024-12-04T13:56:44Z)
Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文参考訳（メタデータ） (2024-11-11T02:47:05Z)
Model Tells Itself Where to Attend: Faithfulness Meets Automatic Attention Steering [108.2131720470005]
大規模言語モデル(LLM)は、様々な現実世界のタスクで顕著なパフォーマンスを示している。彼らはしばしば、入力コンテキストを完全に理解し、効果的に利用するのに苦労し、不信または幻覚的な反応をもたらす。本稿では,重要な文脈情報を自動的に識別し,LLMの注意点を制御して強調する手法であるAutoPASTAを提案する。
論文参考訳（メタデータ） (2024-09-16T23:52:41Z)
Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration [15.36841874118801]
我々は,大規模言語モデル(LLM)における注意シンクの存在をより深く理解することを目的としている。本研究では,入力適応方式で推論中のハエの注意分布を自動的に最適化する訓練自由注意法(ACT)を提案する。 ACTは、Llama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
論文参考訳（メタデータ） (2024-06-22T07:00:43Z)
Elliptical Attention [1.7597562616011944]
Pairwise dot-product self-attentionは、言語やビジョンにおける様々なアプリケーションで最先端のパフォーマンスを実現するトランスフォーマーの成功の鍵である。本稿では,マハラノビス距離計を用いて注意重みの計算を行い,その基礎となる特徴空間を文脈的関連性の高い方向に拡張することを提案する。
論文参考訳（メタデータ） (2024-06-19T18:38:11Z)
Extending Token Computation for LLM Reasoning [5.801044612920816]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な要素である。 LLMは、非効率な注意分布のため、複雑な推論タスクに苦しむことが多い。本稿では,アテンション機構の最適化を利用して,計算トークンをChain-of-Thoughtプロセスで拡張する新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-22T03:23:58Z)
C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-02-17T11:28:08Z)
Generic Attention-model Explainability by Weighted Relevance Accumulation [9.816810016935541]
本稿では,トークン値の重要性を考慮に入れた重み付き関連性戦略を提案する。提案手法を評価するために,CLIPをベースとした2段階モデルCLIPmapperを提案する。
論文参考訳（メタデータ） (2023-08-20T12:02:30Z)
Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文参考訳（メタデータ） (2023-05-22T13:18:17Z)
Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-08T17:00:26Z)
Heterogeneous Contrastive Learning: Encoding Spatial Information for Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文参考訳（メタデータ） (2020-11-19T16:26:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。