論文の概要: Contextually Guided Transformers via Low-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2506.05672v1
- Date: Fri, 06 Jun 2025 01:34:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.281776
- Title: Contextually Guided Transformers via Low-Rank Adaptation
- Title(参考訳): 低ランク適応による文脈案内変換器
- Authors: Andrey Zhmoginov, Jihwan Lee, Max Vladymyrov, Mark Sandler,
- Abstract要約: 変換器をベースとした大規模言語モデル(LLM)は、テキスト処理において優れているが、特殊な振る舞いのプロンプトに依存しているため、計算オーバーヘッドが生じる。
本稿では,モデル重みにコンテキストをエンコードすることで,明示的なプロンプトの必要性を解消するトランスフォーマーアーキテクチャの修正を提案する。
- 参考スコア(独自算出の注目度): 14.702057924366345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) based on Transformers excel at text processing, but their reliance on prompts for specialized behavior introduces computational overhead. We propose a modification to a Transformer architecture that eliminates the need for explicit prompts by learning to encode context into the model's weights. Our Contextually Guided Transformer (CGT) model maintains a contextual summary at each sequence position, allowing it to update the weights on the fly based on the preceding context. This approach enables the model to self-specialize, effectively creating a tailored model for processing information following a given prefix. We demonstrate the effectiveness of our method on synthetic in-context learning tasks and language modeling benchmarks. Furthermore, we introduce techniques for enhancing the interpretability of the learned contextual representations, drawing connections to Variational Autoencoders and promoting smoother, more consistent context encoding. This work offers a novel direction for efficient and adaptable language modeling by integrating context directly into the model's architecture.
- Abstract(参考訳): 変換器をベースとした大規模言語モデル(LLM)は、テキスト処理において優れているが、特殊な振る舞いのプロンプトに依存しているため、計算オーバーヘッドが生じる。
本稿では,モデル重みにコンテキストをエンコードすることで,明示的なプロンプトの必要性を解消するトランスフォーマーアーキテクチャの修正を提案する。
我々のコンテクストガイドトランスフォーマー(CGT)モデルは、各シーケンス位置でコンテキスト概要を維持し、前回のコンテキストに基づいてフライ時の重みを更新する。
このアプローチにより、モデルは自己特殊化が可能となり、与えられたプレフィックスに従って情報を処理するための調整されたモデルが効果的に作成される。
本稿では,テキスト内学習タスクと言語モデルベンチマークにおける本手法の有効性を実証する。
さらに、学習した文脈表現の解釈可能性の向上、変分オートエンコーダとの接続の描画、よりスムーズで一貫性のあるコンテキスト符号化の促進などを紹介する。
この作業は、コンテキストを直接モデルのアーキテクチャに統合することで、効率的で適応可能な言語モデリングのための新しい方向性を提供する。
関連論文リスト
- Linear Transformers with Learnable Kernel Functions are Better In-Context Models [3.3865605512957453]
In-Context学習能力を増幅するベースカーネルにエレガントな変更を加える。
本稿では,マルチクエリ・アソシエイト・リコールタスクによって評価されたインコンテキスト学習能力を増幅する,独特でエレガントな変更をベースカーネルに提示する。
論文 参考訳(メタデータ) (2024-02-16T12:44:15Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-01T17:22:31Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Time-Stamped Language Model: Teaching Language Models to Understand the
Flow of Events [8.655294504286635]
我々はこの課題を質問応答問題として定式化することを提案する。
これにより、手続き的テキスト理解に適応することで、他のQAベンチマークで事前訓練された言語モデルを使用することができる。
Proparaデータセットで評価したモデルでは、F1スコアが3.1%上昇した状態での公開結果の改善が示されている。
論文 参考訳(メタデータ) (2021-04-15T17:50:41Z) - GTAE: Graph-Transformer based Auto-Encoders for Linguistic-Constrained
Text Style Transfer [119.70961704127157]
近年,非並列テキストスタイルの転送が研究の関心を集めている。
現在のアプローチでは、元の文の内容やロジックを保存できない。
文を言語グラフとしてモデル化し,グラフレベルで特徴抽出とスタイル転送を行う,グラフトランスフォーマーベースのAuto-GTAEを提案する。
論文 参考訳(メタデータ) (2021-02-01T11:08:45Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。