論文の概要: Scaled Signed Averaging Improves In-Context and Early Learning Benchmark Performance in Small Transformers
- arxiv url: http://arxiv.org/abs/2508.14685v2
- Date: Tue, 07 Oct 2025 18:34:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.098742
- Title: Scaled Signed Averaging Improves In-Context and Early Learning Benchmark Performance in Small Transformers
- Title(参考訳): 大規模署名平均化による小型変圧器のインコンテキストと早期学習ベンチマーク性能の向上
- Authors: Omar Naim, Swarnadeep Bhar, Jérôme Bolte, Nicholas Asher,
- Abstract要約: スケールド署名平均化(SSA)はICLタスクの性能を大幅に向上させることを示す。
SSAは、いくつかの早期学習NLPベンチマークとゼロおよび少数ショット設定での言語探索タスクにおいて、Softmaxでトランスフォーマーモデルより優れている。
- 参考スコア(独自算出の注目度): 9.155494288752664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language models' abilities for in-context learning (ICL) have drawn much attention, we examine some of its limitations on semantic tasks involving quantifiers like "all" and "some", as well as on tasks with linear functions. We identify Softmax, the scoring function in attention mechanism, as a contributing factor to these limitations. We propose scaled signed averaging (SSA), a novel alternative to Softmax to mitigate these problems. We show that SSA significantly improves performance on our ICL tasks. In addition, SSA outperforms transformer models with Softmax on several early learning NLP benchmarks and linguistic probing tasks on zero and few-shot settings.
- Abstract(参考訳): 大規模言語モデルによるインコンテキスト学習(ICL)の能力は注目されているが、"all"や"some"のような量化子を含む意味的タスクや線形関数を持つタスクに対する制限について検討する。
注意機構におけるスコアリング関数であるSoftmaxを,これらの制限に寄与する要因として同定する。
我々はこれらの問題を緩和するためにSoftmaxに代わる新しい代替案であるスケールド署名平均化(SSA)を提案する。
ICLタスクの性能は,SSAにより大幅に向上した。
さらに、SSAは、いくつかの早期学習NLPベンチマークとゼロおよび少数ショット設定での言語探索タスクにおいて、Softmaxでトランスフォーマーモデルより優れている。
関連論文リスト
- MateICL: Mitigating Attention Dispersion in Large-Scale In-Context Learning [0.0]
大規模ICL(MateICL)における注意分散の緩和について紹介する。
ICLの性能向上のために,MateICLはより大規模なコンテキストを効果的に活用できることを示す。
推論戦略の進歩にもかかわらず,MateICLは計算資源に制約のある環境でも有効であることを示す。
論文 参考訳(メタデータ) (2025-05-02T08:45:45Z) - Cross-lingual Embedding Clustering for Hierarchical Softmax in Low-Resource Multilingual Speech Recognition [23.574728651878544]
自動音声認識(ASR)の復号段階に着目した新しい手法を提案する。
言語間埋め込みクラスタリング法を用いて階層型ソフトマックスデコーダ(H-Softmax)を構築する。
これは、以前のHuffmanベースのH-Softmax法の制限に対処する。
論文 参考訳(メタデータ) (2025-01-29T12:44:30Z) - Selective Attention: Enhancing Transformer through Principled Context Control [33.874087621944945]
SSA(textitSelective Self-Attention$)層を導入し,ソフトマックスの非線形性を原理的温度スケーリング戦略で強化する。
これは注意の希釈を軽減し、最適化プロセスを支援し、個々のクエリのソフトマックススパイキネスを制御するモデルの能力を高めることを実証する。
論文 参考訳(メタデータ) (2024-11-19T22:17:18Z) - Making Text Embedders Few-Shot Learners [33.50993377494602]
本稿では,高品質なテキスト埋め込みを実現するために,少数の例を用いた新しいモデルbge-en-iclを提案する。
提案手法では,タスク関連例をクエリ側に直接統合することで,タスク間の大幅な改善を実現している。
MTEBおよびAIR-Benchベンチマークによる実験結果から,本手法がSOTA(State-of-the-art)性能を新たに設定することを示す。
論文 参考訳(メタデータ) (2024-09-24T03:30:19Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。