論文の概要: MuDAF: Long-Context Multi-Document Attention Focusing through Contrastive Learning on Attention Heads
- arxiv url: http://arxiv.org/abs/2502.13963v1
- Date: Wed, 19 Feb 2025 18:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:05.046348
- Title: MuDAF: Long-Context Multi-Document Attention Focusing through Contrastive Learning on Attention Heads
- Title(参考訳): MuDAF: 注意頭上でのコントラスト学習に焦点をあてた長期マルチドキュメント注意
- Authors: Weihao Liu, Ning Wu, Shiping Yang, Wenbiao Ding, Shining Liang, Ming Gong, Dongmei Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、入力に無関係な情報があるため、しばしば注意をそらした。
コントラスト学習により,頭部における注意分布を明示的に最適化する新しい手法MuDAFを提案する。
- 参考スコア(独自算出の注目度): 38.03745877569759
- License:
- Abstract: Large Language Models (LLMs) frequently show distracted attention due to irrelevant information in the input, which severely impairs their long-context capabilities. Inspired by recent studies on the effectiveness of retrieval heads in long-context factutality, we aim at addressing this distraction issue through improving such retrieval heads directly. We propose Multi-Document Attention Focusing (MuDAF), a novel method that explicitly optimizes the attention distribution at the head level through contrastive learning. According to the experimental results, MuDAF can significantly improve the long-context question answering performance of LLMs, especially in multi-document question answering. Extensive evaluations on retrieval scores and attention visualizations show that MuDAF possesses great potential in making attention heads more focused on relevant information and reducing attention distractions.
- Abstract(参考訳): 大きな言語モデル(LLM)は、入力に関係のない情報によってしばしば注意をそらし、長文の能力を著しく損なう。
長文事実性における検索ヘッドの有効性に関する最近の研究から着想を得て,このような検索ヘッドを直接改善することで,この障害問題に対処することを目指す。
コントラスト学習により頭部における注意分布を明示的に最適化する新しい手法であるMuDAF(Multi-Document Attention Focusing)を提案する。
実験結果によると,MDAF は LLM の長文質問応答性能,特に多文書質問応答性能を大幅に向上させることができる。
検索スコアとアテンションビジュアライゼーションの広範囲な評価は、MuDAFが注意をもっと関連情報に集中させ、注意の注意散らしを減らすことに大きな可能性を秘めていることを示している。
関連論文リスト
- Unveiling Simplicities of Attention: Adaptive Long-Context Head Identification [20.49185921960757]
クエリによっては,局所的情報と長文的情報の間に注目の頭が揺れることが分かる。
ローカルキーのみを用いて、長文処理においてどのヘッドが重要かを予測することが可能であることを実証した。
論文 参考訳(メタデータ) (2025-02-11T00:04:32Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - Reducing Distraction in Long-Context Language Models by Focused Learning [6.803882766744194]
本稿では,大規模言語モデルの関連情報を識別する能力を高める新しい学習手法を提案する。
長いコンテキストで微調整を行う際、最も関連性の高いセグメントを抽出するために検索器を用いる。
次に、元のコンテキストと検索したサブコンテキストからの出力が密接に一致していることを明確にするために、補助的なコントラスト学習対象を導入する。
論文 参考訳(メタデータ) (2024-11-08T19:27:42Z) - Rethinking Visual Dependency in Long-Context Reasoning for Large Vision-Language Models [62.698520962933195]
LVLM(Large Vision-Language Models)は、クロスモデルタスクでは優れているが、長文推論ではパフォーマンスが低下する。
そこで本研究では,重要でないテキスト情報を選択的に除去する,学習不要なコンテキストプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-25T17:59:09Z) - Distance between Relevant Information Pieces Causes Bias in Long-Context LLMs [50.40165119718928]
LongPiBenchは、複数の関連する情報を含む位置バイアスを評価するために設計されたベンチマークである。
これらの実験によると、現在のほとんどのモデルは「中間の失われた」問題に対して堅牢であるが、関連する情報片の間隔に関する重大なバイアスが存在する。
論文 参考訳(メタデータ) (2024-10-18T17:41:19Z) - On the token distance modeling ability of higher RoPE attention dimension [76.55792402912027]
本研究では,注目ヘッドの隠蔽次元と長距離依存の捕捉への寄与との関係について検討する。
我々は、様々な長さ計測モデルから特定の種類の注意ヘッドを同定し、位置頭部と命名した。
これらのヘッドは、長距離情報相互作用に強く焦点を合わせ、長い入力処理において重要な役割を担っている。
論文 参考訳(メタデータ) (2024-10-11T10:47:02Z) - Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization [97.84156490765457]
大規模言語モデル(LLM)は、入力の中央に位置する関連する情報を取得するのに苦労する。
この現象はミドル・イン・ザ・ミドル問題として知られている。
また,中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級中級健常者を対象に,長期にわたる中級中級中級中級中級健常者を対象とした。
論文 参考訳(メタデータ) (2024-06-23T04:35:42Z) - Never Lost in the Middle: Mastering Long-Context Question Answering with Position-Agnostic Decompositional Training [9.128501882000315]
大規模言語モデル(LLM)は、長い文脈で正しい情報を求めるのに苦労している。
本稿では,LLMの長期的コンテキストにおける情報探索と反射能力の向上を,特別に設計されたタスクを通して行うことを提案する。
実験の結果、マルチドックQAやその他のベンチマークでは、シャッフル設定において、最先端モデルよりも13.7%向上した。
論文 参考訳(メタデータ) (2023-11-15T18:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。