論文の概要: Indirect Attention: Turning Context Misalignment into a Feature
- arxiv url: http://arxiv.org/abs/2509.26015v1
- Date: Tue, 30 Sep 2025 09:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.499003
- Title: Indirect Attention: Turning Context Misalignment into a Feature
- Title(参考訳): 間接的注意:コンテキストのミスアライメントを特徴に変える
- Authors: Bissmella Bahaduri, Hicham Talaoubrid, Fangchen Feng, Zuheng Ming, Anissa Mokraoui,
- Abstract要約: この研究は、キーと値が異なるシーケンスやモダリティに由来する、より伝統的なシナリオを探求する。
まず,雑音特性下でのアテンション機構の挙動を解析し,臨界雑音閾値を確立する。
次に, 文脈(キー, 値) の誤定を, 値特徴の有効形としてモデル化し, その誤定によって生じる雑音が, この臨界しきい値を大幅に超えることを示す。
そこで本研究では、コンテキストが不一致なシナリオにおいて、間接的に関連性を推測する改良型アテンション機構であるインダイレクトアテンションを導入する。
- 参考スコア(独自算出の注目度): 2.3425919199730694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attention mechanism has become a cornerstone of modern deep learning architectures, where keys and values are typically derived from the same underlying sequence or representation. This work explores a less conventional scenario, when keys and values originate from different sequences or modalities. Specifically, we first analyze the attention mechanism's behavior under noisy value features, establishing a critical noise threshold beyond which signal degradation becomes significant. Furthermore, we model context (key, value) misalignment as an effective form of structured noise within the value features, demonstrating that the noise induced by such misalignment can substantially exceed this critical threshold, thereby compromising standard attention's efficacy. Motivated by this, we introduce Indirect Attention, a modified attention mechanism that infers relevance indirectly in scenarios with misaligned context. We evaluate the performance of Indirect Attention across a range of synthetic tasks and real world applications, showcasing its superior ability to handle misalignment.
- Abstract(参考訳): 注意機構は現代のディープラーニングアーキテクチャの基盤となり、鍵と値は通常、同じ基礎となるシーケンスや表現から導かれる。
この研究は、キーと値が異なるシーケンスやモダリティに由来する、より伝統的なシナリオを探求する。
具体的には、まず、ノイズ特性下でのアテンションメカニズムの挙動を分析し、信号劣化が重要となる限界雑音閾値を確立する。
さらに, 文脈(キー, 値) のずれを, 値特徴内の構造的雑音の有効形としてモデル化し, 誤りによって生じる雑音がこの臨界しきい値を超えることを実証し, 標準的注意力の有効性を実証する。
これに触発された間接的注意(Indirect Attention)は、コンテキストが不一致なシナリオで間接的に関連性を推測する改良された注意機構である。
我々は,様々な合成タスクや実世界の応用における間接的注意力の評価を行い,不適応に対処する優れた能力を示す。
関連論文リスト
- CTR-Sink: Attention Sink for Language Models in Click-Through Rate Prediction [42.92011330807996]
$textitCTR-Sink$は、レコメンデーションシナリオに適した振る舞いレベルの注意シンクを導入した、新しいフレームワークである。
注意シンク理論にヒントを得て、注意集中シンクを構築し、外部情報を介して注意集約を動的に制御する。
論文 参考訳(メタデータ) (2025-08-05T17:30:34Z) - Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation [62.14692332209628]
インタラクション蒸留(Interaction Distillation)は、注意レベル最適化によるより適切な嗜好モデリングのための新しいトレーニングフレームワークである。
最先端のRM最適化法と比較して、より安定で一般化可能な報酬信号を提供する。
論文 参考訳(メタデータ) (2025-08-04T17:06:23Z) - Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - Static Key Attention in Vision [19.014373531742297]
視覚変換器の標準アテンション機構において,動的パラメータ化キーと静的キーとを置換した場合の影響について検討する。
以上の結果から,静的キーアテンション機構は,通常の自己注意機能と一致したり,超えたりする可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-09T23:18:09Z) - Towards Robust Semantic Segmentation against Patch-based Attack via Attention Refinement [68.31147013783387]
我々は,アテンション機構がパッチベースの敵攻撃に弱いことを観察した。
本稿では,意味的セグメンテーションモデルの堅牢性を改善するために,ロバスト注意機構(RAM)を提案する。
論文 参考訳(メタデータ) (2024-01-03T13:58:35Z) - Generic Attention-model Explainability by Weighted Relevance
Accumulation [9.816810016935541]
本稿では,トークン値の重要性を考慮に入れた重み付き関連性戦略を提案する。
提案手法を評価するために,CLIPをベースとした2段階モデルCLIPmapperを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:02:30Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。