論文の概要: Improving in-context learning with a better scoring function
- arxiv url: http://arxiv.org/abs/2508.14685v1
- Date: Wed, 20 Aug 2025 13:01:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.458753
- Title: Improving in-context learning with a better scoring function
- Title(参考訳): より良いスコアリング機能によるテキスト内学習の改善
- Authors: Omar Naim, Swarnadeep Bhar, Jérôme Bolte, Nicholas Asher,
- Abstract要約: 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)として知られるアナロジーによって学習する顕著な能力を示す。
本稿では,エムオールやエムのような一階量子化器を含むタスクや線形関数を持つICLにおけるこれらの制限について検討する。
我々は、Softmaxに代わる新しい代替品であるtextbfscaled signed averaging (SSA)を提案する。
- 参考スコア(独自算出の注目度): 7.062238472483738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit a remarkable capacity to learn by analogy, known as in-context learning (ICL). However, recent studies have revealed limitations in this ability. In this paper, we examine these limitations on tasks involving first-order quantifiers such as {\em all} and {\em some}, as well as on ICL with linear functions. We identify Softmax, the scoring function in attention mechanism, as a contributing factor to these constraints. To address this, we propose \textbf{scaled signed averaging (SSA)}, a novel alternative to Softmax. Empirical results show that SSA dramatically improves performance on our target tasks. Furthermore, we evaluate both encoder-only and decoder-only transformers models with SSA, demonstrating that they match or exceed their Softmax-based counterparts across a variety of linguistic probing tasks.
- Abstract(参考訳): 大規模言語モデル (LLM) は、インコンテキスト学習 (ICL) として知られるアナロジーによって学習する顕著な能力を示す。
しかし、近年の研究では、この能力の限界が明らかになっている。
本稿では、これらの制限を、線形関数を持つICLと同様に、一階量子化器(例えば {\em all} や {\em some} など)を含むタスクについて検討する。
これらの制約に寄与する要因として注意機構のスコアリング関数であるSoftmaxを同定する。
これを解決するために、Softmaxに代わる新しい代替品であるtextbf{scaled signed averaging (SSA)を提案する。
その結果,SSAは目標タスクの性能を劇的に向上させることがわかった。
さらに、エンコーダのみのモデルとデコーダのみのトランスフォーマーモデルの両方をSSAで評価し、様々な言語探索タスクにおいて、それらがSoftmaxベースのモデルと一致するか、超えるかを示す。
関連論文リスト
- Can abstract concepts from LLM improve SLM performance? [0.6875312133832079]
大規模言語モデル(LLM)は多様なタスクで優れているが、リソース制約のあるデバイスへの展開は依然として困難である。
量子化、プルーニング、蒸留といった既存の手法はメモリフットプリントを削減できるが、大規模な実験と慎重なインフラ設計を必要とすることが多い。
推論中、より小さな言語モデル(SLM)への転送可能性について検討する。
論文 参考訳(メタデータ) (2025-12-22T06:17:25Z) - Scaling Textual Gradients via Sampling-Based Momentum [59.94928977345951]
Textual Gradient Descent (TGD)フレームワークは、有望なデータ駆動アプローチとして登場した。
トレーニングサンプルの数をスケールすることで結果が改善されるが、後にTGDのパフォーマンスが低下する。
本稿では,テキスト・グラディエント・ Descent with Momentum (TSGD-M) を提案する。
論文 参考訳(メタデータ) (2025-05-31T05:35:45Z) - MateICL: Mitigating Attention Dispersion in Large-Scale In-Context Learning [0.0]
大規模ICL(MateICL)における注意分散の緩和について紹介する。
ICLの性能向上のために,MateICLはより大規模なコンテキストを効果的に活用できることを示す。
推論戦略の進歩にもかかわらず,MateICLは計算資源に制約のある環境でも有効であることを示す。
論文 参考訳(メタデータ) (2025-05-02T08:45:45Z) - Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。
適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。
我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文 参考訳(メタデータ) (2025-04-09T17:59:42Z) - Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。
本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。
我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文 参考訳(メタデータ) (2025-02-26T05:31:44Z) - Cross-lingual Embedding Clustering for Hierarchical Softmax in Low-Resource Multilingual Speech Recognition [23.574728651878544]
自動音声認識(ASR)の復号段階に着目した新しい手法を提案する。
言語間埋め込みクラスタリング法を用いて階層型ソフトマックスデコーダ(H-Softmax)を構築する。
これは、以前のHuffmanベースのH-Softmax法の制限に対処する。
論文 参考訳(メタデータ) (2025-01-29T12:44:30Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Selective Attention: Enhancing Transformer through Principled Context Control [33.874087621944945]
SSA(textitSelective Self-Attention$)層を導入し,ソフトマックスの非線形性を原理的温度スケーリング戦略で強化する。
これは注意の希釈を軽減し、最適化プロセスを支援し、個々のクエリのソフトマックススパイキネスを制御するモデルの能力を高めることを実証する。
論文 参考訳(メタデータ) (2024-11-19T22:17:18Z) - Making Text Embedders Few-Shot Learners [33.50993377494602]
本稿では,高品質なテキスト埋め込みを実現するために,少数の例を用いた新しいモデルbge-en-iclを提案する。
提案手法では,タスク関連例をクエリ側に直接統合することで,タスク間の大幅な改善を実現している。
MTEBおよびAIR-Benchベンチマークによる実験結果から,本手法がSOTA(State-of-the-art)性能を新たに設定することを示す。
論文 参考訳(メタデータ) (2024-09-24T03:30:19Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Improving Autoregressive NLP Tasks via Modular Linearized Attention [0.20305676256390928]
本稿では,推定品質を最大化しつつ,顕著な高速化を実現するために,モジュラリニアライナライズドアテンション(MLA)を提案する。
本稿では、音声からテキストへのニューラルマシン翻訳(S2T NMT)、音声からテキストへの同時翻訳(SimulST)、自動回帰テキスト・トゥ・スペクトログラムなど、いくつかの自己回帰NLPタスクに対して、このアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T17:25:48Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。