Fugu-MT 論文翻訳(概要): Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning

論文の概要: Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning

arxiv url: http://arxiv.org/abs/2404.12897v1
Date: Fri, 19 Apr 2024 14:05:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-22 14:46:18.498708
Title: Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning
Title（参考訳）: ステートメントチューニングによるエンコーダモデル上での自然ゼロショットプロンプトの実現
Authors: Ahmed Elshabrawy, Yongix Huang, Iryna Gurevych, Alham Fikri Aji,
Abstract要約: ステートメント・チューニング(英: Statement-Tuning)は、有限文の集合として識別的タスクをモデル化し、潜在的なステートメントを識別してラベルを決定するモデルを訓練する手法である。実験結果から,ステートメントチューニングは,パラメータが著しく少ない最先端のLLMと比較して,競争性能が向上することが示された。
参考スコア（独自算出の注目度）: 55.265138447400744
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Large Language Models (LLMs) exhibit remarkable capabilities in zero-shot and few-shot scenarios, they often require computationally prohibitive sizes. Conversely, smaller Masked Language Models (MLMs) like BERT and RoBERTa achieve state-of-the-art results through fine-tuning but struggle with extending to few-shot and zero-shot settings due to their architectural constraints. Hence, we propose Statement-Tuning, a technique that models discriminative tasks as a set of finite statements and trains an Encoder model to discriminate between the potential statements to determine the label. We do Statement-Tuning on multiple tasks to enable cross-task generalization. Experimental results demonstrate that Statement Tuning achieves competitive performance compared to state-of-the-art LLMs with significantly fewer parameters. Moreover, the study investigates the impact of several design choices on few-shot and zero-shot generalization, revealing that Statement Tuning can achieve sufficient performance with modest training data and benefits from task and statement diversity for unseen task generalizability.
Abstract（参考訳）: 大規模言語モデル(LLM)はゼロショットと少数ショットのシナリオにおいて顕著な能力を示すが、計算的に禁止されたサイズを必要とすることが多い。逆に、BERT や RoBERTa のような小さな Masked Language Model (MLMs) は、微調整によって最先端の結果を得るが、アーキテクチャ上の制約のため、ほとんどショットやゼロショットの設定にまで拡張することは困難である。そこで本稿では,有限文の集合として識別的タスクをモデル化し,潜在的な文を識別してラベルを決定するエンコーダモデルを訓練する手法であるステートメント・チューニングを提案する。複数のタスクをステートメントチューニングして、クロスタスクの一般化を実現します。実験結果から,ステートメントチューニングは,パラメータが著しく少ない最先端のLLMと比較して,競争性能が向上することが示された。さらに、本研究では、いくつかの設計選択が少数ショットおよびゼロショットの一般化に与える影響を調査し、ステートメントチューニングが、控えめなトレーニングデータとタスクとステートメントの多様性から、見えないタスクの一般化性に対する十分なパフォーマンスを達成できることを明らかにした。

関連論文リスト

WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens [69.97021957331326]
本稿では,VLMと拡散モデル間の分散表現空間をエンドツーエンドの最適化により学習するノイズクエリトークンを提案する。また、細粒度画像の詳細を復元する線形投影を用いたVAE分岐も導入する。
論文参考訳（メタデータ） (2025-12-02T09:02:20Z)
The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文参考訳（メタデータ） (2025-01-15T10:57:55Z)
Unified Parameter-Efficient Unlearning for LLMs [25.195126838721492]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々なタスクに対する高度な理解と推論を可能にする。これは、モデルが不注意に機密情報や望ましくない情報を保持および拡散する可能性があるため、重要なプライバシーとセキュリティ上の懸念を提起する。本稿では,非学習タスクを体系的に分類し,影響関数を用いた高精度な調整を行う,新しいインスタンス単位のアンラーニングフレームワークLLMEraserを紹介する。
論文参考訳（メタデータ） (2024-11-30T07:21:02Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Improving Factuality in Large Language Models via Decoding-Time Hallucinatory and Truthful Comparators [14.705475420665117]
大きな言語モデル(LLM)は、検証可能な事実に矛盾する応答を生成する傾向がある。応答幻覚を軽減するために,比較器駆動型復号時間(CDT)フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-22T12:00:31Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-04T15:22:54Z)
Instruction Position Matters in Sequence Generation with Large Language Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-08-23T12:36:57Z)
Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文参考訳（メタデータ） (2021-12-02T18:59:50Z)
Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文参考訳（メタデータ） (2021-04-14T06:30:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。