論文の概要: Bitune: Leveraging Bidirectional Attention to Improve Decoder-Only LLMs
- arxiv url: http://arxiv.org/abs/2405.14862v2
- Date: Thu, 28 Aug 2025 17:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.482416
- Title: Bitune: Leveraging Bidirectional Attention to Improve Decoder-Only LLMs
- Title(参考訳): Bitune: 双方向アテンションを活用してデコーダのみのLLMを改善する
- Authors: Dawid J. Kopiczko, Tijmen Blankevoort, Yuki M. Asano,
- Abstract要約: Bituneは、双方向の注意をプロンプト処理に組み込むことで、事前訓練されたデコーダのみのLLMを強化する方法である。
我々はBituneを命令チューニングおよび質問応答設定で評価し、常識推論、算術、言語理解タスクにおいて大幅な改善を示す。
- 参考スコア(独自算出の注目度): 38.63018373593719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoder-only large language models typically rely solely on masked causal attention, which limits their expressiveness by restricting information flow to one direction. We propose Bitune, a method that enhances pretrained decoder-only LLMs by incorporating bidirectional attention into prompt processing. We evaluate Bitune in instruction-tuning and question-answering settings, showing significant improvements in performance on commonsense reasoning, arithmetic, and language understanding tasks. Furthermore, extensive ablation studies validate the role of each component of the method, and demonstrate that Bitune is compatible with various parameter-efficient finetuning techniques and full model finetuning.
- Abstract(参考訳): デコーダのみの大規模言語モデルは一般的にマスキングされた因果的注意にのみ依存しており、情報の流れを1方向に制限することで表現性を制限している。
本稿では,双方向の注意をプロンプト処理に組み込むことで,事前学習されたデコーダのみのLLMを改善するBituneを提案する。
我々はBituneを命令チューニングおよび質問応答設定で評価し、コモンセンス推論、算術、言語理解タスクの性能が大幅に向上したことを示す。
さらに、広範囲にわたるアブレーション研究は、手法の各コンポーネントの役割を検証し、Bituneが様々なパラメータ効率のファインタニング技術やフルモデルファインタニングと互換性があることを証明した。
関連論文リスト
- Self-Augmented Visual Contrastive Decoding [13.078702859025482]
LVLM(Large Vision-Language Models)は、目覚ましいマルチモーダル機能を示す。
LVLMは、基礎となる言語モデルから幻覚の傾向を継承する。
本研究では,これらの制約に対処する新しい学習自由復号法を提案する。
論文 参考訳(メタデータ) (2025-10-15T09:03:34Z) - NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。
我々は、Vision-Language-Action(VLA)モデルのための拡散型デコーダの高速かつ表現性の高い代替品であるNinAを提案する。
論文 参考訳(メタデータ) (2025-08-23T00:02:15Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [57.16286134405821]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training [15.783265191574392]
我々はZeroTuningを紹介した。ZeroTuningは、初期トークンに頭部特異的な注意調整を適用することで、LCMの性能を向上させる訓練自由な方法である。
このトークンの注意ログに軽量バイアスを加えることで、下流の注意分布のエントロピーを単調に制御できることが理論的に示されている。
検証例を校正する教師ありモードと、モデルの出力エントロピーを直接最小化する教師なしモードの2つのバリエーションを示す。
論文 参考訳(メタデータ) (2025-05-16T22:52:24Z) - Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free Class-Incremental Learning [76.32953653161417]
クラス増分学習は、モデルが学習したクラスの知識を保持しながら、新しいクラスを段階的に学習することを可能にする。
この分野での最近の進歩はパラメータ効率のよい微調整技術へと移行している。
本稿では,現在のアプローチの限界に対処する新しいプロンプトベースのアプローチを提案する。
論文 参考訳(メタデータ) (2025-03-11T02:27:37Z) - A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。
本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文 参考訳(メタデータ) (2024-10-30T01:53:04Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Knowledge Composition using Task Vectors with Learned Anisotropic Scaling [51.4661186662329]
本稿では,パラメータブロックと異なる学習係数を線形に組み合わせ,タスクベクトルレベルでの異方性スケーリングを実現するアルゴリズムであるaTLASを紹介する。
このような線形結合は事前学習されたモデルの低内在性を明示的に利用しており、学習可能なパラメータは数係数のみであることを示す。
本稿では,タスク算術,少数ショット認識,テスト時間適応において,教師なしあるいは教師なしの目的を用いた手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-07-03T07:54:08Z) - Towards Infinite-Long Prefix in Transformer [18.24137806007111]
本研究では,全パラメータの微調整性能に適合するプロンプト法と文脈に基づく微調整法について検討する。
無限長のプレフィックスではなく、トレーニング可能なパラメータをいくつか導入し、微調整するだけでよいアルゴリズムを実装している。
提案手法は, フルパラメータ細調整, P-Tuning V2, LoRA などの既存手法と比較して, 優れた性能, 競争性を実現している。
論文 参考訳(メタデータ) (2024-06-20T06:56:35Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - StableMask: Refining Causal Masking in Decoder-only Transformer [22.75632485195928]
因果マスキングと相対位置符号化(RPE)を備えたデコーダのみのトランスフォーマーアーキテクチャは、言語モデリングにおいて事実上の選択肢となっている。
しかし、現在の埋め込みが十分な自己完結した情報を持っている場合でも、すべての注意スコアはゼロではなく1まで総和でなければならない。
因果マスクを精細化することで両方の制約に対処するパラメータフリー手法であるStableMaskを提案する。
論文 参考訳(メタデータ) (2024-02-07T12:01:02Z) - COMMA: Co-Articulated Multi-Modal Learning [39.778958624066185]
本稿では,従来の手法の制約に対処するため,COMMA(Co-Articulated Multi-Modal Learning)を提案する。
本手法は,両枝の表現アライメントを高めるプロンプトを生成するために,両枝からのプロンプトを考察する。
提案手法は,新しいクラスへの一般化,新しいターゲットデータセット,目に見えないドメインシフトの3つのタスクにまたがって評価する。
論文 参考訳(メタデータ) (2023-12-30T15:47:36Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - Consistency-guided Prompt Learning for Vision-Language Models [23.4909421082857]
視覚言語モデルのための新しい微調整手法であるConsistency-Guided Prompt Learning (CoPrompt)を提案する。
提案手法は,下流タスクを数ショットで微調整した場合に,大規模な基礎モデルの一般化を改善する。
論文 参考訳(メタデータ) (2023-06-01T23:20:47Z) - Learning Quantization in LDPC Decoders [14.37550972719183]
均一雑音の付加として量子化効果を模倣する浮動小数点代理モデルを提案する。
次に、深層学習に基づく手法を適用し、メッセージビット幅を最適化する。
平均メッセージ量子化ビット幅3.1ビットにおける浮動小数点復号の0.2dB以内の誤り率性能を報告する。
論文 参考訳(メタデータ) (2022-08-10T07:07:54Z) - Efficient Fine-Tuning of Compressed Language Models with Learners [12.768368718187428]
本稿では,BERTをベースとしたモデルを微調整する新しい手法であるLearnerモジュールとプライミングを紹介する。
学習モジュールは, 1) パラメータのサブセットを微調整することで, 1) 学習モジュールの二重結合を効果的に操作し, 2) 迅速な収束と高い測定値のスコアを確保することによって効果的に学習する。
DistilBERTの結果は,学習者がベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-08-03T13:42:30Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Towards a Unified View of Parameter-Efficient Transfer Learning [108.94786930869473]
下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。
近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。
我々は、最先端のパラメータ効率変換学習手法の設計を分解し、それらの相互接続を確立する統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T20:22:26Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - Improving Transformation Invariance in Contrastive Representation
Learning [31.223892428863238]
本稿では、新しい正規化器を用いて変換下で表現がどのように変化するかを制御するコントラスト学習のための学習目標を提案する。
第二に、元の入力の複数の変換からのエンコーディングを結合した機能平均化アプローチを導入することにより、テスト時間表現の生成方法を変更することを提案する。
第三に、複数の下流タスクを持つ微分可能生成プロセスの文脈において、私たちのアイデアを探求するために、新しいSpirographデータセットを導入します。
論文 参考訳(メタデータ) (2020-10-19T13:49:29Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。