論文の概要: Acquiring Bidirectionality via Large and Small Language Models
- arxiv url: http://arxiv.org/abs/2408.09640v2
- Date: Tue, 10 Dec 2024 04:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:34:02.828256
- Title: Acquiring Bidirectionality via Large and Small Language Models
- Title(参考訳): 大規模・小言語モデルによる双方向性獲得
- Authors: Takumi Goto, Hiroyoshi Nagao, Yuta Koreeda,
- Abstract要約: そこで本研究では,下流タスクにおいて,従来のLMに対して,小さな逆向きのLMとその表現をトレーニングすることを提案する。
名前付きエンティティ認識の実験を通じて、後方モデルの導入によってベンチマークのパフォーマンスが10ポイント以上向上することが実証された。
- 参考スコア(独自算出の注目度): 3.1179866276621584
- License:
- Abstract: Using token representation from bidirectional language models (LMs) such as BERT is still a widely used approach for token-classification tasks. Even though there exist much larger unidirectional LMs such as Llama-2, they are rarely used to replace the token representation of bidirectional LMs. In this work, we hypothesize that their lack of bidirectionality is keeping them behind. To that end, we propose to newly train a small backward LM and concatenate its representations to those of existing LM for downstream tasks. Through experiments in named entity recognition, we demonstrate that introducing backward model improves the benchmark performance more than 10 points. Furthermore, we show that the proposed method is especially effective for rare domains and in few-shot learning settings.
- Abstract(参考訳): BERTのような双方向言語モデル(LM)からのトークン表現は、トークン分類タスクにおいて広く使われているアプローチである。
Llama-2のようなより大きな一方向LMが存在するが、双方向LMのトークン表現を置き換えるために使われることは滅多にない。
この研究では、双方向性の欠如がそれらを後押ししていると仮定する。
そこで本研究では,下流タスクのために,小さな後方LMを新たにトレーニングし,既存のLMと組み合わせて表現することを提案する。
名前付きエンティティ認識の実験を通じて、後方モデルの導入によってベンチマークのパフォーマンスが10ポイント以上向上することが実証された。
さらに,本手法は,レアドメインや数ショットの学習環境において特に有効であることを示す。
関連論文リスト
- Effective Demonstration Annotation for In-Context Learning via Language Model-Based Determinantal Point Process [45.632012199451275]
In-context Learning(ICL)は、インプット・アウトプット・ペアを通じてマッピングを学習する、数発の学習パラダイムである。
既存の作業は大規模にラベル付けされたサポートセットに大きく依存しているため、現実的なシナリオでは必ずしも実現できない。
言語モデルに基づく決定点プロセス(LM-DPP)を導入し、最適選択のための未ラベルインスタンスの不確かさと多様性を同時に検討する。
論文 参考訳(メタデータ) (2024-08-04T18:08:15Z) - Show, Don't Tell: Aligning Language Models with Demonstrated Feedback [54.10302745921713]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Automated Multi-level Preference for MLLMs [41.72392895643214]
「現在のマルチモーダル大言語モデル(MLLM)は幻覚に苦しむ」
有望な道の1つは、人間からのフィードバック(RLHF)からの強化学習を利用することである。
二項選好(上等、下等)の一般的な実践を再考し、多水準選好を採用する方が2つの利点があることを示す。
論文 参考訳(メタデータ) (2024-05-18T03:49:37Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Improve Transformer Pre-Training with Decoupled Directional Relative
Position Encoding and Representation Differentiations [23.2969212998404]
トランスフォーマーに基づく事前学習言語モデルを再検討し、モデルの表現性を制限する可能性のある2つの問題を特定する。
既存の相対位置符号化モデルは、相対距離と方向という2つの異種情報を混同する。
事前学習型言語モデルを改善するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-09T12:35:04Z) - Towards Universal Sequence Representation Learning for Recommender
Systems [98.02154164251846]
我々はUniSRecという新しいユニバーサルシーケンス表現学習手法を提案する。
提案手法は、項目の関連記述テキストを用いて、異なる推薦シナリオ間で転送可能な表現を学習する。
我々のアプローチは、パラメータ効率のよい方法で、新しいレコメンデーションドメインやプラットフォームに効果的に移行できます。
論文 参考訳(メタデータ) (2022-06-13T07:21:56Z) - Handwritten Mathematical Expression Recognition via Attention
Aggregation based Bi-directional Mutual Learning [13.696706205837234]
本稿では,アテンションアグリゲーションに基づく双方向相互学習ネットワーク(ABM)を提案する。
推論フェーズでは、モデルが既に2つの逆方向から知識を学習していることを考えると、推論にはL2Rブランチのみを使用する。
提案手法は,CROHME 2014 では 56.85 %,CROHME 2016 では 52.92 %,CROHME 2019 では 53.96 % である。
論文 参考訳(メタデータ) (2021-12-07T09:53:40Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。