論文の概要: Focus Directions Make Your Language Models Pay More Attention to Relevant Contexts
- arxiv url: http://arxiv.org/abs/2503.23306v1
- Date: Sun, 30 Mar 2025 04:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.049444
- Title: Focus Directions Make Your Language Models Pay More Attention to Relevant Contexts
- Title(参考訳): フォーカスの指示により、言語モデルが関連するコンテキストにより注意を払う
- Authors: Youxiang Zhu, Ruochen Li, Danqing Wang, Daniel Haehn, Xiaohui Liang,
- Abstract要約: 長文大言語モデル(LLM)は、無関係な文脈によって邪魔される傾向がある。
本稿では,コンテキストヘッドが関連するコンテキストに十分な注意を払っていない場合に,注意散らしが発生することを示す。
我々は、これらのヘッドのキーとクエリのアクティベーションに位置するフォーカス方向を特定し、関連するコンテキストにより多くの注意を割り当てることを可能にする。
- 参考スコア(独自算出の注目度): 13.459944861140261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context large language models (LLMs) are prone to be distracted by irrelevant contexts. The reason for distraction remains poorly understood. In this paper, we first identify the contextual heads, a special group of attention heads that control the overall attention of the LLM. Then, we demonstrate that distraction arises when contextual heads fail to allocate sufficient attention to relevant contexts and can be mitigated by increasing attention to these contexts. We further identify focus directions, located at the key and query activations of these heads, which enable them to allocate more attention to relevant contexts without explicitly specifying which context is relevant. We comprehensively evaluate the effect of focus direction on various long-context tasks and find out focus directions could help to mitigate the poor task alignment of the long-context LLMs. We believe our findings could promote further research on long-context LLM alignment.
- Abstract(参考訳): 長文大言語モデル(LLM)は、無関係な文脈によって邪魔される傾向がある。
混乱の理由はいまだに理解されていない。
本稿では、まず、LLMの全体的注意を制御できる特別な注意ヘッド群であるコンテキストヘッドを同定する。
そして,これらの文脈に注意を向けることによって,適切な注意を関連文脈に割り当てることに失敗した場合に,注意散らしが発生することを実証する。
さらに、これらのヘッドのキーとクエリのアクティベーションに位置するフォーカス方向を特定し、どのコンテキストが関連しているかを明確に指定することなく、関連するコンテキストにより多くの注意を向けることができる。
我々は、焦点方向が様々な長文タスクに与える影響を包括的に評価し、焦点方向が長文LLMのタスクアライメントの低下を軽減するのに役立つことを明らかにする。
以上の結果から,長期LLMアライメントのさらなる研究が期待できる。
関連論文リスト
- Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [52.478956204238315]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - MuDAF: Long-Context Multi-Document Attention Focusing through Contrastive Learning on Attention Heads [38.03745877569759]
大規模言語モデル(LLM)は、入力に無関係な情報があるため、しばしば注意をそらした。
コントラスト学習により,頭部における注意分布を明示的に最適化する新しい手法MuDAFを提案する。
論文 参考訳(メタデータ) (2025-02-19T18:59:15Z) - Reducing Distraction in Long-Context Language Models by Focused Learning [6.803882766744194]
本稿では,大規模言語モデルの関連情報を識別する能力を高める新しい学習手法を提案する。
長いコンテキストで微調整を行う際、最も関連性の高いセグメントを抽出するために検索器を用いる。
次に、元のコンテキストと検索したサブコンテキストからの出力が密接に一致していることを明確にするために、補助的なコントラスト学習対象を導入する。
論文 参考訳(メタデータ) (2024-11-08T19:27:42Z) - Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models [62.698520962933195]
LVLM(Large Vision-Language Models)は、クロスモデルタスクでは優れているが、長文推論ではパフォーマンスが低下する。
そこで本研究では,重要でないテキスト情報を選択的に除去する,学習不要なコンテキストプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-25T17:59:09Z) - Attention Instruction: Amplifying Attention in the Middle via Prompting [35.07098912195063]
言語モデルはいまだ位置バイアスに悩まされており、コンテキストの中央へのアクセスと使用が困難である。
本研究では,LSMの相対的位置認識と,プロンプトによる不均等注意の軽減の可能性について検討した。
論文 参考訳(メタデータ) (2024-06-24T19:35:11Z) - Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization [97.84156490765457]
大規模言語モデル(LLM)は、入力の中央に位置する関連する情報を取得するのに苦労する。
この現象はミドル・イン・ザ・ミドル問題として知られている。
また,中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級健常者を対象に,長期にわたる中級中級中級中級中級健常者を対象とした。
論文 参考訳(メタデータ) (2024-06-23T04:35:42Z) - Identifying Semantic Induction Heads to Understand In-Context Learning [103.00463655766066]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T17:24:51Z) - Cross-modal Attention Congruence Regularization for Vision-Language
Relation Alignment [105.70884254216973]
我々は、"mug"から"grass"への指示言語注意を促すことで、関係アライメントを強制できることを示します。
我々は、このソフトリレーションアライメントの概念が、視覚と言語注意の一致を強制することと等価であることを証明した。
UNITERにCACR(Cross-modal Attention Congruence Regularization)の損失を適用し,Winogroundに対する最先端アプローチを改善した。
論文 参考訳(メタデータ) (2022-12-20T18:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。