Fugu-MT 論文翻訳(概要): Exploiting the Potential of Seq2Seq Models as Robust Few-Shot Learners

論文の概要: Exploiting the Potential of Seq2Seq Models as Robust Few-Shot Learners

arxiv url: http://arxiv.org/abs/2307.14856v2
Date: Tue, 27 Aug 2024 04:30:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 20:18:41.086939
Title: Exploiting the Potential of Seq2Seq Models as Robust Few-Shot Learners
Title（参考訳）: ロバストなFew-Shot学習者としてのSeq2Seqモデルの可能性
Authors: Jihyeon Lee, Dain Kim, Doohae Jung, Boseop Kim, Kyoung-Woon On,
Abstract要約: この結果から,Seq2seqモデルは多種多様なアプリケーションに対して非常に効果的であることを示す。本稿では,セq2seqモデルにおける文脈内学習能力をより効果的に活用する2つの手法を提案する。
参考スコア（独自算出の注目度）: 8.43854206194162
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In-context learning, which offers substantial advantages over fine-tuning, is predominantly observed in decoder-only models, while encoder-decoder (i.e., seq2seq) models excel in methods that rely on weight updates. Recently, a few studies have demonstrated the feasibility of few-shot learning with seq2seq models; however, this has been limited to tasks that align well with the seq2seq architecture, such as summarization and translation. Inspired by these initial studies, we provide a first-ever extensive experiment comparing the in-context few-shot learning capabilities of decoder-only and encoder-decoder models on a broad range of tasks. Furthermore, we propose two methods to more effectively elicit in-context learning ability in seq2seq models: objective-aligned prompting and a fusion-based approach. Remarkably, our approach outperforms a decoder-only model that is six times larger and exhibits significant performance improvements compared to conventional seq2seq models across a variety of settings. We posit that, with the right configuration and prompt design, seq2seq models can be highly effective few-shot learners for a wide spectrum of applications.
Abstract（参考訳）: インコンテキスト学習は微調整よりもかなりの利点があるが、主にデコーダのみのモデルで見られ、エンコーダ・デコーダ(seq2seq)モデルは重み更新に依存する手法で優れている。近年,Seq2seqモデルによる少数ショット学習の実現可能性を示す研究がいくつかあるが,これは要約や翻訳などのSeq2seqアーキテクチャによく適合するタスクに限られている。これらの初期研究に触発されて、幅広いタスクにおけるデコーダのみおよびエンコーダ-デコーダモデルのコンテキスト内数ショット学習能力の比較を行った。さらに,Seq2seqモデルにおける文脈内学習能力をより効果的に活用する2つの手法を提案する。注目すべきことに,本手法はデコーダのみのモデルよりも6倍大きく,従来のSeq2seqモデルに比べて,大幅な性能向上を実現している。適切な構成とプロンプト設計により、Seq2seqモデルは幅広いアプリケーションに対して非常に効果的な数ショット学習者になり得ると仮定する。

関連論文リスト

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs [27.331524018411926]
時間依存シミュレーションタスクに対して,エンコーダのみのモデルとデコーダのみのモデルを比較した。デコーダのみのモデルは、既存のアプローチを修正せずに適用した場合に、エンコーダのみのモデルよりもはるかに悪いことが判明した。自己回帰モデルにおいて、双方向性を模倣しようとする2つの新しいアプローチ、Parallel FlippingとSequence Duublingを導入する。
論文参考訳（メタデータ） (2025-10-06T18:46:50Z)
A2R: An Asymmetric Two-Stage Reasoning Framework for Parallel Reasoning [57.727084580884075]
モデルポテンシャルと実際の性能の間のギャップを埋めるために設計された非対称な2段階推論フレームワーク。 A2R-Efficientは、Qwen3-4BとQwen3-8Bシンセサイザーを組み合わせた「小型から大型」の派生型である。その結果、A2Rはパフォーマンス・ブートスティングのフレームワークであるだけでなく、現実世界のアプリケーションに対して効率的かつ実用的なソリューションであることがわかった。
論文参考訳（メタデータ） (2025-09-26T08:27:03Z)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。 RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2025-03-03T18:46:33Z)
EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。 EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-10-03T05:43:24Z)
Self-Supervised Open-Ended Classification with Small Visual Language Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文参考訳（メタデータ） (2023-09-30T21:41:21Z)
RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文参考訳（メタデータ） (2023-08-15T17:59:18Z)
Recipes for Sequential Pre-training of Multilingual Encoder and Seq2Seq Models [16.49601740473416]
1つのモデルを他のモデルから初期化することで、トレーニング効率を向上させるためのレシピを探索する。エンコーダを用いてSeq2seqのトレーニングを温めることで、Scratch Seq2seqモデルのタスク性能にマッチできることを示す。
論文参考訳（メタデータ） (2023-06-14T21:41:52Z)
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文参考訳（メタデータ） (2023-03-29T16:42:30Z)
Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚するインタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文参考訳（メタデータ） (2022-06-13T17:34:22Z)
Tiny Neural Models for Seq2Seq [0.0]
pQRNN-MAttと呼ばれるプロジェクションベースエンコーダデコーダモデルを提案する。その結果得られた量子化モデルのサイズは3.5MB未満であり、デバイス上のレイテンシクリティカルなアプリケーションに適している。本稿では,多言語意味解析データセットであるMTOPにおいて,平均モデル性能が,85倍の精度で事前学習した埋め込みを用いたLSTMベースのSeq2seqモデルを上回ることを示す。
論文参考訳（メタデータ） (2021-08-07T00:39:42Z)
When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。精度を向上させるために,2つの軽量モジュールを提案する。 DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。 QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文参考訳（メタデータ） (2021-05-27T13:51:42Z)
Randomized Ensembled Double Q-Learning: Learning Fast Without a Model [8.04816643418952]
簡単なモデルなしアルゴリズムRandomized Ensembled Double Q-Learning (REDQ)を導入する。 REDQのパフォーマンスは、MuJoCoベンチマークの最先端のモデルベースのアルゴリズムと同じくらい優れていることを示しています。
論文参考訳（メタデータ） (2021-01-15T06:25:58Z)
Multiscale Deep Equilibrium Models [162.15362280927476]
マルチスケールディープ均衡モデル(MDEQ)を新たに提案する。 MDEQは、複数の特徴分解の平衡点を直接解き、同時に伝播する。本稿では,Cityscapesデータセットの高解像度画像に対するイメージネット分類とセマンティックセグメンテーションの2つの大規模ビジョンタスクにおけるこのアプローチの有効性について述べる。
論文参考訳（メタデータ） (2020-06-15T18:07:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。