論文の概要: Order-Level Attention Similarity Across Language Models: A Latent Commonality
- arxiv url: http://arxiv.org/abs/2511.05064v1
- Date: Fri, 07 Nov 2025 08:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.710907
- Title: Order-Level Attention Similarity Across Language Models: A Latent Commonality
- Title(参考訳): 言語モデル全体での順序レベル注意類似性:潜在共通性
- Authors: Jinglin Liang, Jin Zhong, Shuangping Huang, Yunqing Hu, Huiyuan Zhang, Huifang Li, Lixin Fan, Hanlin Gu,
- Abstract要約: 言語モデル(LM)にまたがるコンテキストアグリゲーションパターンは共通点を共有しているだろうか?
注意ロールアウトの順序分解から導かれる命令レベル注意(OLA)を導入する。
トレーニング不要なクロスLMアダプタ転送方式であるTransferable OLA Adapter (TOA)を提案する。
- 参考スコア(独自算出の注目度): 21.824171885933676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore an important yet previously neglected question: Do context aggregation patterns across Language Models (LMs) share commonalities? While some works have investigated context aggregation or attention weights in LMs, they typically focus on individual models or attention heads, lacking a systematic analysis across multiple LMs to explore their commonalities. In contrast, we focus on the commonalities among LMs, which can deepen our understanding of LMs and even facilitate cross-model knowledge transfer. In this work, we introduce the Order-Level Attention (OLA) derived from the order-wise decomposition of Attention Rollout and reveal that the OLA at the same order across LMs exhibits significant similarities. Furthermore, we discover an implicit mapping between OLA and syntactic knowledge. Based on these two findings, we propose the Transferable OLA Adapter (TOA), a training-free cross-LM adapter transfer method. Specifically, we treat the OLA as a unified syntactic feature representation and train an adapter that takes OLA as input. Due to the similarities in OLA across LMs, the adapter generalizes to unseen LMs without requiring any parameter updates. Extensive experiments demonstrate that TOA's cross-LM generalization effectively enhances the performance of unseen LMs. Code is available at https://github.com/jinglin-liang/OLAS.
- Abstract(参考訳): 本稿では,言語モデル(LM)間のコンテキストアグリゲーションパターンが共通点を共有しているか,という問題について考察する。
LMのコンテキストアグリゲーションやアテンションウェイトを調査する研究もあるが、一般的には個々のモデルやアテンションヘッドに焦点を合わせており、共通点を探るために複数のLMにまたがる体系的な分析を欠いている。
対照的に、私たちはLM間の共通点に注目し、LMの理解を深め、クロスモデル知識の伝達を促進することができる。
本研究では, 注意ロールアウトの次数分解から導かれる命令レベル注意(OLA)を導入し, LM間でのOLAの順序が類似していることを明らかにする。
さらに,OLAと構文知識の暗黙マッピングも発見する。
これら2つの知見に基づいて、トレーニング不要なクロスLMアダプタ転送法であるTransferable OLA Adapter (TOA)を提案する。
具体的には、OLAを統合構文的特徴表現として扱い、OLAを入力とするアダプタを訓練する。
LM間のOLAの類似性のため、アダプタはパラメータの更新を必要とせずに未確認のLMに一般化される。
広汎な実験により、TOAのクロス・LM一般化は、目に見えないLMの性能を効果的に向上させることが示された。
コードはhttps://github.com/jinglin-liang/OLASで公開されている。
関連論文リスト
- Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。
幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。
我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文 参考訳(メタデータ) (2024-03-05T18:22:33Z) - LLMs Can't Plan, But Can Help Planning in LLM-Modulo Frameworks [18.068035947969044]
計画と推論タスクにおけるLLM(Large Language Models)の役割には、かなりの混乱がある。
自己回帰型LSMは、それ自体で計画や自己検証を行うことはできない、と我々は主張する。
本稿では,LLMの強みと外部モデルベース検証器を併用した bf LLM-Modulo Framework のビジョンを提案する。
論文 参考訳(メタデータ) (2024-02-02T14:43:18Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Augmentation-Adapted Retriever Improves Generalization of Language
Models as Generic Plug-In [34.48567582734655]
検索の強化は、知識集約的なタスクにおいて言語モデル(LM)を補助し、外部情報を提供する。
本稿では、既知のソースLMから得られるLMの好みを学習する拡張適応レトリバー(AAR)を提案する。
我々のAARは、250M-T5から175B InstructGPTの範囲で、より大きな目標LMのゼロショット一般化を大幅に改善することができる。
論文 参考訳(メタデータ) (2023-05-27T02:26:52Z) - Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。
抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文 参考訳(メタデータ) (2023-01-28T02:04:07Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。