論文の概要: Order-Level Attention Similarity Across Language Models: A Latent Commonality
- arxiv url: http://arxiv.org/abs/2511.05064v1
- Date: Fri, 07 Nov 2025 08:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.710907
- Title: Order-Level Attention Similarity Across Language Models: A Latent Commonality
- Title(参考訳): 言語モデル全体での順序レベル注意類似性:潜在共通性
- Authors: Jinglin Liang, Jin Zhong, Shuangping Huang, Yunqing Hu, Huiyuan Zhang, Huifang Li, Lixin Fan, Hanlin Gu,
- Abstract要約: 言語モデル(LM)にまたがるコンテキストアグリゲーションパターンは共通点を共有しているだろうか?
注意ロールアウトの順序分解から導かれる命令レベル注意(OLA)を導入する。
トレーニング不要なクロスLMアダプタ転送方式であるTransferable OLA Adapter (TOA)を提案する。
- 参考スコア(独自算出の注目度): 21.824171885933676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore an important yet previously neglected question: Do context aggregation patterns across Language Models (LMs) share commonalities? While some works have investigated context aggregation or attention weights in LMs, they typically focus on individual models or attention heads, lacking a systematic analysis across multiple LMs to explore their commonalities. In contrast, we focus on the commonalities among LMs, which can deepen our understanding of LMs and even facilitate cross-model knowledge transfer. In this work, we introduce the Order-Level Attention (OLA) derived from the order-wise decomposition of Attention Rollout and reveal that the OLA at the same order across LMs exhibits significant similarities. Furthermore, we discover an implicit mapping between OLA and syntactic knowledge. Based on these two findings, we propose the Transferable OLA Adapter (TOA), a training-free cross-LM adapter transfer method. Specifically, we treat the OLA as a unified syntactic feature representation and train an adapter that takes OLA as input. Due to the similarities in OLA across LMs, the adapter generalizes to unseen LMs without requiring any parameter updates. Extensive experiments demonstrate that TOA's cross-LM generalization effectively enhances the performance of unseen LMs. Code is available at https://github.com/jinglin-liang/OLAS.
- Abstract(参考訳): 本稿では,言語モデル(LM)間のコンテキストアグリゲーションパターンが共通点を共有しているか,という問題について考察する。
LMのコンテキストアグリゲーションやアテンションウェイトを調査する研究もあるが、一般的には個々のモデルやアテンションヘッドに焦点を合わせており、共通点を探るために複数のLMにまたがる体系的な分析を欠いている。
対照的に、私たちはLM間の共通点に注目し、LMの理解を深め、クロスモデル知識の伝達を促進することができる。
本研究では, 注意ロールアウトの次数分解から導かれる命令レベル注意(OLA)を導入し, LM間でのOLAの順序が類似していることを明らかにする。
さらに,OLAと構文知識の暗黙マッピングも発見する。
これら2つの知見に基づいて、トレーニング不要なクロスLMアダプタ転送法であるTransferable OLA Adapter (TOA)を提案する。
具体的には、OLAを統合構文的特徴表現として扱い、OLAを入力とするアダプタを訓練する。
LM間のOLAの類似性のため、アダプタはパラメータの更新を必要とせずに未確認のLMに一般化される。
広汎な実験により、TOAのクロス・LM一般化は、目に見えないLMの性能を効果的に向上させることが示された。
コードはhttps://github.com/jinglin-liang/OLASで公開されている。
関連論文リスト
- Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。
タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。
この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文 参考訳(メタデータ) (2026-03-03T18:48:15Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。
幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。
我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文 参考訳(メタデータ) (2024-03-05T18:22:33Z) - LLMs Can't Plan, But Can Help Planning in LLM-Modulo Frameworks [18.068035947969044]
計画と推論タスクにおけるLLM(Large Language Models)の役割には、かなりの混乱がある。
自己回帰型LSMは、それ自体で計画や自己検証を行うことはできない、と我々は主張する。
本稿では,LLMの強みと外部モデルベース検証器を併用した bf LLM-Modulo Framework のビジョンを提案する。
論文 参考訳(メタデータ) (2024-02-02T14:43:18Z) - Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts? [45.233517779029334]
応答が生成されたコンテキストと検索されたコンテキストに関連付けられているかどうかを識別する。
実験では、誤った情報を提供する場合でも、生成されたコンテキストを優先する複数のLSMにおいて、重大なバイアスが示される。
論文 参考訳(メタデータ) (2024-01-22T12:54:04Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Augmentation-Adapted Retriever Improves Generalization of Language
Models as Generic Plug-In [34.48567582734655]
検索の強化は、知識集約的なタスクにおいて言語モデル(LM)を補助し、外部情報を提供する。
本稿では、既知のソースLMから得られるLMの好みを学習する拡張適応レトリバー(AAR)を提案する。
我々のAARは、250M-T5から175B InstructGPTの範囲で、より大きな目標LMのゼロショット一般化を大幅に改善することができる。
論文 参考訳(メタデータ) (2023-05-27T02:26:52Z) - Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。
抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文 参考訳(メタデータ) (2023-01-28T02:04:07Z) - Language Model Decomposition: Quantifying the Dependency and Correlation
of Language Models [6.096612743012841]
事前訓練された言語モデル(LM)は、過去数年間に様々なNLPタスクに大幅な改善をもたらした。
本稿では,事前学習したLM間の線形依存性について検討する。
BERT と 11 のBERT 様 LM は 91% の線形依存性を持つことがわかった。
論文 参考訳(メタデータ) (2022-10-19T04:28:19Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。