論文の概要: Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs
- arxiv url: http://arxiv.org/abs/2311.02262v2
- Date: Tue, 01 Oct 2024 04:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:33:39.307136
- Title: Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs
- Title(参考訳): LLMのためのポストホックアテンションステアリング
- Authors: Qingru Zhang, Chandan Singh, Liyuan Liu, Xiaodong Liu, Bin Yu, Jianfeng Gao, Tuo Zhao,
- Abstract要約: PASTAは、大きな言語モデルでユーザーが指定した強調マークでテキストを読むことができる方法である。
LLMのユーザ命令に従う能力を大幅に強化したり、ユーザ入力から新たな知識を統合することができる。
- 参考スコア(独自算出の注目度): 80.48606583629123
- License:
- Abstract: In human-written articles, we often leverage the subtleties of text style, such as bold and italics, to guide the attention of readers. These textual emphases are vital for the readers to grasp the conveyed information. When interacting with large language models (LLMs), we have a similar need -- steering the model to pay closer attention to user-specified information, e.g., an instruction. Existing methods, however, are constrained to process plain text and do not support such a mechanism. This motivates us to introduce PASTA -- Post-hoc Attention STeering Approach, a method that allows LLMs to read text with user-specified emphasis marks. To this end, PASTA identifies a small subset of attention heads and applies precise attention reweighting on them, directing the model attention to user-specified parts. Like prompting, PASTA is applied at inference time and does not require changing any model parameters. Experiments demonstrate that PASTA can substantially enhance an LLM's ability to follow user instructions or integrate new knowledge from user inputs, leading to a significant performance improvement on a variety of tasks, e.g., an average accuracy improvement of 22% for LLAMA-7B. Our code is publicly available at https://github.com/QingruZhang/PASTA .
- Abstract(参考訳): 人文記事では、大胆な文体やイタリックといったテキストスタイルの微妙さを利用して、読者の注意を喚起することが多い。
これらのテキストエンフェーズは、読者が伝達された情報を把握するのに不可欠である。
大きな言語モデル(LLM)と対話する場合、私たちは同じようなニーズを抱えています。
しかし、既存のメソッドはプレーンテキストの処理に制約があり、そのようなメカニズムをサポートしていない。
PASTA -- Post-hoc Attention STeering Approachは、LLMがユーザが指定した強調マークでテキストを読むことができる方法です。
この目的のために、PASTAは小さな注意ヘッドのサブセットを特定し、それらに正確な注意再重み付けを適用し、モデルの注意をユーザ指定部品に向ける。
プロンプトと同様に、PASTAは推論時に適用され、モデルパラメータを変更する必要はない。
PASTA は LLAMA-7B の平均精度を 22% に向上させるなど,様々なタスクにおいて,ユーザ指示に従う能力やユーザ入力からの新しい知識を統合する能力を大幅に向上させることができることを示した。
私たちのコードはhttps://github.com/QingruZhang/PASTAで公開されています。
関連論文リスト
- IPO: Interpretable Prompt Optimization for Vision-Language Models [40.83071220530289]
本稿では,シンプルだが解釈可能なプロンプト(IPO)を紹介する。
IPOは大規模言語モデル(LLM)を使用してテキストプロンプトを動的に生成する。
画像記述を生成することで、視覚的内容の条件付けに大型マルチモーダルモデル(LMM)を組み込む。
論文 参考訳(メタデータ) (2024-10-20T14:10:22Z) - Model Tells Itself Where to Attend: Faithfulness Meets Automatic Attention Steering [108.2131720470005]
大規模言語モデル(LLM)は、様々な現実世界のタスクで顕著なパフォーマンスを示している。
彼らはしばしば、入力コンテキストを完全に理解し、効果的に利用するのに苦労し、不信または幻覚的な反応をもたらす。
本稿では,重要な文脈情報を自動的に識別し,LLMの注意点を制御して強調する手法であるAutoPASTAを提案する。
論文 参考訳(メタデータ) (2024-09-16T23:52:41Z) - LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - User Embedding Model for Personalized Language Prompting [9.472634942498859]
自由形式のテキストでユーザ履歴を効率よく処理し,それを埋め込みとして表現する新しいユーザ埋め込みモジュール(UEM)を導入する。
本実験は, より長い歴史を扱う上で, このアプローチの優れた能力を示すものである。
この研究の主な貢献は、埋め込みとして表現されたユーザ信号で言語モデルをバイアスする能力を示すことである。
論文 参考訳(メタデータ) (2024-01-10T00:35:52Z) - Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T17:24:51Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - PerPLM: Personalized Fine-tuning of Pretrained Language Models via
Writer-specific Intermediate Learning and Prompts [16.59511985633798]
事前訓練言語モデル(PLM)はコンテキストをキャプチャするための強力なツールである。
PLMは通常、様々な作家の間で広く使われるように訓練され、微調整されている。
本研究では, PLMの微調整を具体化することで, テキスト理解タスクの精度を向上させることを目的とする。
論文 参考訳(メタデータ) (2023-09-14T14:03:48Z) - A Few-shot Approach to Resume Information Extraction via Prompts [0.0]
本稿では,情報抽出を再開するために即時学習を適用する。
手作業でテンプレートを作成し、テキストを再開するように調整します。
本報告では,特定のアプリケーションに対して,言語処理を行うためのルールであるMKV(Manual Knowledgeable Verbalizer)を提案する。
論文 参考訳(メタデータ) (2022-09-20T04:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。