Fugu-MT 論文翻訳(概要): Improving in-context learning with a better scoring function

論文の概要: Improving in-context learning with a better scoring function

arxiv url: http://arxiv.org/abs/2508.14685v1
Date: Wed, 20 Aug 2025 13:01:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-21 16:52:41.458753
Title: Improving in-context learning with a better scoring function
Title（参考訳）: より良いスコアリング機能によるテキスト内学習の改善
Authors: Omar Naim, Swarnadeep Bhar, Jérôme Bolte, Nicholas Asher,
Abstract要約: 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)として知られるアナロジーによって学習する顕著な能力を示す。本稿では,エムオールやエムのような一階量子化器を含むタスクや線形関数を持つICLにおけるこれらの制限について検討する。我々は、Softmaxに代わる新しい代替品であるtextbfscaled signed averaging (SSA)を提案する。
参考スコア（独自算出の注目度）: 7.062238472483738
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) exhibit a remarkable capacity to learn by analogy, known as in-context learning (ICL). However, recent studies have revealed limitations in this ability. In this paper, we examine these limitations on tasks involving first-order quantifiers such as {\em all} and {\em some}, as well as on ICL with linear functions. We identify Softmax, the scoring function in attention mechanism, as a contributing factor to these constraints. To address this, we propose \textbf{scaled signed averaging (SSA)}, a novel alternative to Softmax. Empirical results show that SSA dramatically improves performance on our target tasks. Furthermore, we evaluate both encoder-only and decoder-only transformers models with SSA, demonstrating that they match or exceed their Softmax-based counterparts across a variety of linguistic probing tasks.
Abstract（参考訳）: 大規模言語モデル (LLM) は、インコンテキスト学習 (ICL) として知られるアナロジーによって学習する顕著な能力を示す。しかし、近年の研究では、この能力の限界が明らかになっている。本稿では、これらの制限を、線形関数を持つICLと同様に、一階量子化器(例えば {\em all} や {\em some} など)を含むタスクについて検討する。これらの制約に寄与する要因として注意機構のスコアリング関数であるSoftmaxを同定する。これを解決するために、Softmaxに代わる新しい代替品であるtextbf{scaled signed averaging (SSA)を提案する。その結果,SSAは目標タスクの性能を劇的に向上させることがわかった。さらに、エンコーダのみのモデルとデコーダのみのトランスフォーマーモデルの両方をSSAで評価し、様々な言語探索タスクにおいて、それらがSoftmaxベースのモデルと一致するか、超えるかを示す。

関連論文リスト

MateICL: Mitigating Attention Dispersion in Large-Scale In-Context Learning [0.0]
大規模ICL(MateICL)における注意分散の緩和について紹介する。 ICLの性能向上のために,MateICLはより大規模なコンテキストを効果的に活用できることを示す。推論戦略の進歩にもかかわらず,MateICLは計算資源に制約のある環境でも有効であることを示す。
論文参考訳（メタデータ） (2025-05-02T08:45:45Z)
Cross-lingual Embedding Clustering for Hierarchical Softmax in Low-Resource Multilingual Speech Recognition [23.574728651878544]
自動音声認識(ASR)の復号段階に着目した新しい手法を提案する。言語間埋め込みクラスタリング法を用いて階層型ソフトマックスデコーダ(H-Softmax)を構築する。これは、以前のHuffmanベースのH-Softmax法の制限に対処する。
論文参考訳（メタデータ） (2025-01-29T12:44:30Z)
Selective Attention: Enhancing Transformer through Principled Context Control [33.874087621944945]
SSA(textitSelective Self-Attention$)層を導入し,ソフトマックスの非線形性を原理的温度スケーリング戦略で強化する。これは注意の希釈を軽減し、最適化プロセスを支援し、個々のクエリのソフトマックススパイキネスを制御するモデルの能力を高めることを実証する。
論文参考訳（メタデータ） (2024-11-19T22:17:18Z)
Making Text Embedders Few-Shot Learners [33.50993377494602]
本稿では,高品質なテキスト埋め込みを実現するために,少数の例を用いた新しいモデルbge-en-iclを提案する。提案手法では,タスク関連例をクエリ側に直接統合することで,タスク間の大幅な改善を実現している。 MTEBおよびAIR-Benchベンチマークによる実験結果から,本手法がSOTA(State-of-the-art)性能を新たに設定することを示す。
論文参考訳（メタデータ） (2024-09-24T03:30:19Z)
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。 FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文参考訳（メタデータ） (2023-10-31T12:32:38Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文参考訳（メタデータ） (2021-04-14T17:52:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。