Fugu-MT 論文翻訳(概要): Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula

論文の概要: Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula

arxiv url: http://arxiv.org/abs/2411.01030v1
Date: Fri, 01 Nov 2024 21:01:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.556381
Title: Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula
Title（参考訳）: Birdie: Reward-Driven ObjectivesとCurriculaによるステートスペースモデルの改善
Authors: Sam Blouir, Jimmy Smith, Antonios Anastasopoulos, Amarda Shehu,
Abstract要約: 状態空間モデル(SSM)はトランスフォーマーの代替言語モデルとして登場している。 SSMはテキストのコピーや連想的リコールといったコンテキスト内検索を必要とするタスクに苦労する。本稿では,検索集約タスクにおけるSSMの性能を向上する新たなトレーニング手法を提案する。
参考スコア（独自算出の注目度）: 20.82146807792783
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Efficient state space models (SSMs), including linear recurrent neural networks and linear attention variants, have emerged as potential alternative language models to Transformers. While efficient, SSMs struggle with tasks requiring in-context retrieval, such as text copying and associative recall, limiting their usefulness in practical settings. Prior work on how to meet this challenge has focused on the internal model architecture and not investigated the role of the training procedure. This paper proposes a new training procedure that strongly improves the performance of SSMs on retrieval-intensive tasks. This novel pre-training procedure combines a bidirectional processing of the input with dynamic mixtures of pre-training objectives to improve the utilization of the SSM's fixed-size state. Our experimental evaluations show that Birdie significantly improves performance on retrieval-intensive tasks that challenge current SSMs, such as phone book lookup, long paragraph question-answering, and infilling tasks. Our findings offer insights into a new direction to advance the training of SSMs to close the performance gap with Transformers.
Abstract（参考訳）: 線形リカレントニューラルネットワークや線形アテンション変種を含む効率的な状態空間モデル(SSM)がトランスフォーマーの代替言語モデルとして浮上している。効率性はあるものの、SSMはテキストのコピーや連想的リコールといったコンテキスト内検索を必要とするタスクに悩まされ、現実的な環境での有用性が制限される。この課題にどう対処するかという以前の研究は、内部モデルアーキテクチャに焦点を合わせており、トレーニング手順の役割を調査していない。本稿では,検索集約タスクにおけるSSMの性能を向上する新たなトレーニング手法を提案する。この新しい事前学習手順は、入力の双方向処理と事前学習対象の動的混合を組み合わせることで、SSMの固定サイズ状態の利用を改善する。実験の結果,電話帳検索,長文質問応答,補充タスクなど,現在のSSMに挑戦する検索集約タスクにおいて,Birdieは性能を著しく向上させることがわかった。以上の結果から,SSMのトレーニングを推進し,トランスフォーマーによるパフォーマンスギャップを埋めるための新たな方向性が示唆された。

関連論文リスト

Bagging-Based Model Merging for Robust General Text Embeddings [73.51674133699196]
汎用テキスト埋め込みモデルは、幅広いNLPおよび情報検索アプリケーションを支える。本稿では,データスケジューリングとモデルマージという2つの観点から,テキスト埋め込みのためのマルチタスク学習の体系的研究を行う。本稿では,Baging ベースの rObust mOdel Merging (BOOM) を提案する。
論文参考訳（メタデータ） (2026-02-05T15:45:08Z)
Echo State Transformer: When chaos brings memory [2.07180164747172]
本稿では,逐次データ処理のためのハイブリッドアーキテクチャであるEcho State Transformers (EST)を紹介する。 ESTはTransformerのアテンションメカニズムとReservoir Computingの原則を統合し、固定サイズのウィンドウ分散メモリシステムを作成する。 ESTは各処理ステップで一定の計算複雑性を達成し、標準変換器の2次スケーリング問題を効果的に破る。
論文参考訳（メタデータ） (2025-06-25T09:56:25Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)により,より効率的な長文処理を実現する。本稿では,まず,変圧器の非効率性について,ソフトマックス動作のばらつきから生じる注意シンク現象を考察する。実験により、SWATは8つのベンチマーク上での最先端の線形リカレントアーキテクチャと比較してSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-12T17:41:23Z)
Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.16383527459429]
自然言語処理(NLP)における長文言語モデリングの課題 Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文参考訳（メタデータ） (2024-10-24T09:25:37Z)
RecurFormer: Not All Transformer Heads Need Self-Attention [14.331807060659902]
変換器をベースとした大規模言語モデル(LLM)は複雑な言語パターンをモデル化する上で優れているが、推論時にかなりの計算コストに直面している。本稿では,リニアリカレントニューラルネットワークに注意を向ける新しいアーキテクチャであるRecurFormerを提案する。
論文参考訳（メタデータ） (2024-10-10T15:24:12Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
RankMamba: Benchmarking Mamba's Document Ranking Performance in the Era of Transformers [2.8554857235549753]
トランスフォーマーアーキテクチャのコアメカニズム -- 注意には、トレーニングにおけるO(n2)$時間複雑さと推論におけるO(n)$時間複雑さが必要です。状態空間モデルに基づく有名なモデル構造であるMambaは、シーケンスモデリングタスクにおいてトランスフォーマー等価のパフォーマンスを達成した。同じトレーニングレシピを持つトランスフォーマーベースモデルと比較して,Mambaモデルは競争性能が向上することがわかった。
論文参考訳（メタデータ） (2024-03-27T06:07:05Z)
Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文参考訳（メタデータ） (2023-06-26T17:58:50Z)
MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。 MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文参考訳（メタデータ） (2022-12-15T13:57:07Z)
Efficient Retrieval Optimized Multi-task Learning [16.189136169520424]
本稿では,自己指導型タスク,知識検索,抽出質問応答を共同で訓練するための新しい検索最適化マルチタスク(ROM)フレームワークを提案する。我々のROMアプローチは、複数のタスクに効率的にスケーリングできる統一的で一般化可能なフレームワークを提供する。当社のフレームワークでは,近年のQAメソッドよりも同等あるいは優れたパフォーマンスを実現していますが,パラメータの数を大幅に削減しています。
論文参考訳（メタデータ） (2021-04-20T17:16:34Z)
Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文参考訳（メタデータ） (2020-09-24T15:40:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。