論文の概要: Bitune: Bidirectional Instruction-Tuning
- arxiv url: http://arxiv.org/abs/2405.14862v1
- Date: Thu, 23 May 2024 17:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 13:17:34.788420
- Title: Bitune: Bidirectional Instruction-Tuning
- Title(参考訳): Bitune: 双方向インストラクションチューニング
- Authors: Dawid J. Kopiczko, Tijmen Blankevoort, Yuki M. Asano,
- Abstract要約: Bituneは、クエリや命令のより良い表現を得るために、因果的および双方向の注意をプロンプトに適用する。
我々は,コモンセンス推論,算術,言語理解タスクにおけるゼロショット性能の大幅な向上を示す。
- 参考スコア(独自算出の注目度): 26.689047406929244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Bitune, a method that improves instruction-tuning of pretrained decoder-only large language models, leading to consistent gains on downstream tasks. Bitune applies both causal and bidirectional attention to the prompt, to obtain a better representation of the query or instruction. We realize this by introducing two sets of parameters, for which we apply parameter-efficient finetuning techniques. These causal and bidirectional features are then combined into a weighted average with trainable coefficients, which is subsequently used to generate new tokens. We demonstrate significant improvements in zero-shot performance on commonsense reasoning, arithmetic, and language understanding tasks, while extensive ablation studies validate the role of each component and demonstrate the method's agnosticism to different PEFT techniques.
- Abstract(参考訳): 我々は、事前訓練されたデコーダのみの大規模言語モデルの命令チューニングを改善する方法であるBituneを導入し、下流タスクで一貫したゲインをもたらす。
Bituneは、クエリや命令のより良い表現を得るために、因果的および双方向の両方の注意をプロンプトに適用する。
2つのパラメータセットを導入し、パラメータ効率の良い微調整手法を適用した。
これらの因果的特徴と双方向的特徴は、トレーニング可能な係数を持つ重み付き平均に結合され、新しいトークンを生成するために使用される。
本研究では,コモンセンス推論,算術,言語理解タスクにおけるゼロショット性能の大幅な向上を示すとともに,各コンポーネントの役割を検証し,異なるPEFT手法に対する手法の非依存性を実証する。
関連論文リスト
- Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Knowledge Composition using Task Vectors with Learned Anisotropic Scaling [51.4661186662329]
本稿では,パラメータブロックと異なる学習係数を線形に組み合わせ,タスクベクトルレベルでの異方性スケーリングを実現するアルゴリズムであるaTLASを紹介する。
このような線形結合は事前学習されたモデルの低内在性を明示的に利用しており、学習可能なパラメータは数係数のみであることを示す。
本稿では,タスク算術,少数ショット認識,テスト時間適応において,教師なしあるいは教師なしの目的を用いた手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-07-03T07:54:08Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models [101.81127587760831]
現在のパラメータ効率の高い微調整手法は、学習すべき下流タスクのコンテキストや維持すべき重要な知識のコンテキストを考慮せずに、アダプタを構築する。
我々は、下流タスクや世界知識のコンテキストを指向した重み分解から学習可能なアダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
我々の知識保存適応は、微調整作業においてLoRAよりも優れた性能を達成するだけでなく、世界の知識の分解を軽減します。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - COMMA: Co-Articulated Multi-Modal Learning [39.778958624066185]
本稿では,従来の手法の制約に対処するため,COMMA(Co-Articulated Multi-Modal Learning)を提案する。
本手法は,両枝の表現アライメントを高めるプロンプトを生成するために,両枝からのプロンプトを考察する。
提案手法は,新しいクラスへの一般化,新しいターゲットデータセット,目に見えないドメインシフトの3つのタスクにまたがって評価する。
論文 参考訳(メタデータ) (2023-12-30T15:47:36Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - Efficient Fine-Tuning of Compressed Language Models with Learners [12.768368718187428]
本稿では,BERTをベースとしたモデルを微調整する新しい手法であるLearnerモジュールとプライミングを紹介する。
学習モジュールは, 1) パラメータのサブセットを微調整することで, 1) 学習モジュールの二重結合を効果的に操作し, 2) 迅速な収束と高い測定値のスコアを確保することによって効果的に学習する。
DistilBERTの結果は,学習者がベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-08-03T13:42:30Z) - Towards a Unified View of Parameter-Efficient Transfer Learning [108.94786930869473]
下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。
近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。
我々は、最先端のパラメータ効率変換学習手法の設計を分解し、それらの相互接続を確立する統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T20:22:26Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - Improving Transformation Invariance in Contrastive Representation
Learning [31.223892428863238]
本稿では、新しい正規化器を用いて変換下で表現がどのように変化するかを制御するコントラスト学習のための学習目標を提案する。
第二に、元の入力の複数の変換からのエンコーディングを結合した機能平均化アプローチを導入することにより、テスト時間表現の生成方法を変更することを提案する。
第三に、複数の下流タスクを持つ微分可能生成プロセスの文脈において、私たちのアイデアを探求するために、新しいSpirographデータセットを導入します。
論文 参考訳(メタデータ) (2020-10-19T13:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。