論文の概要: Test-Time Self-Adaptive Small Language Models for Question Answering
- arxiv url: http://arxiv.org/abs/2310.13307v1
- Date: Fri, 20 Oct 2023 06:49:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 00:05:48.900740
- Title: Test-Time Self-Adaptive Small Language Models for Question Answering
- Title(参考訳): 質問応答のためのテスト時間自己適応小言語モデル
- Authors: Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Ju Hwang, Jong C. Park
- Abstract要約: ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
- 参考スコア(独自算出の注目度): 63.91013329169796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent instruction-finetuned large language models (LMs) have achieved
notable performances in various tasks, such as question-answering (QA).
However, despite their ability to memorize a vast amount of general knowledge
across diverse tasks, they might be suboptimal on specific tasks due to their
limited capacity to transfer and adapt knowledge to target tasks. Moreover,
further finetuning LMs with labeled datasets is often infeasible due to their
absence, but it is also questionable if we can transfer smaller LMs having
limited knowledge only with unlabeled test data. In this work, we show and
investigate the capabilities of smaller self-adaptive LMs, only with unlabeled
test data. In particular, we first stochastically generate multiple answers,
and then ensemble them while filtering out low-quality samples to mitigate
noise from inaccurate labels. Our proposed self-adaption strategy demonstrates
significant performance improvements on benchmark QA datasets with higher
robustness across diverse prompts, enabling LMs to stay stable. Code is
available at: https://github.com/starsuzi/T-SAS.
- Abstract(参考訳): 近年の命令精細大言語モデル (LM) は質問応答 (QA) など,様々なタスクにおいて顕著な性能を発揮している。
しかしながら、様々なタスクにまたがる膨大な一般知識を記憶する能力があるにもかかわらず、ターゲットタスクに知識を移し適応する能力が限られているため、特定のタスクに最適ではないかもしれない。
さらに、ラベル付きデータセットによるさらなる微調整は、それらがないためにしばしば実現できないが、ラベル付きテストデータだけで限られた知識を持つ小さなLMを転送できるかどうかも疑問である。
本研究では,ラベルのないテストデータのみを用いて,より小さな自己適応型LMの能力を示す。
特に,まず複数の回答を確率的に生成し,低品質なサンプルをフィルタリングし,不正確なラベルからノイズを除去する。
提案した自己適応戦略は,様々なプロンプトにまたがる高いロバスト性を有するベンチマークQAデータセットの性能向上を示す。
コードは、https://github.com/starsuzi/T-SAS.comで入手できる。
関連論文リスト
- One VLM to Keep it Learning: Generation and Balancing for Data-free Continual Visual Question Answering [31.025439143093585]
VLM(Vision-Language Models)は、Webスケールのマルチモーダルデータセットを活用することで、VQA(Visual Question Answering)タスクにおいて大きな可能性を秘めている。
これらのモデルは、新しいタスクに適応する際に破滅的な忘れ物のために、継続的な学習に苦しむことが多い。
本稿では,外部モデルに頼るのではなく,VLMの言語生成能力を活用した最初のデータフリー手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T16:04:59Z) - Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels [75.77877889764073]
大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。
本研究では,ラベルのないデータのみを利用することで,強力なモデル機能を実現することができるかどうかを考察する。
ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:59:44Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - PEDANTS: Cheap but Effective and Interpretable Answer Equivalence [10.367359022491181]
我々は,Triviaコミュニティで採用されているマシンQAを評価するために,ルーリックとデータセットを提供する。
また、正確なマッチングとニューラルメソッド(BERTScore)よりも安定な、効率的で解釈可能なQA評価を提案する。
論文 参考訳(メタデータ) (2024-02-17T01:56:19Z) - QActor: On-line Active Learning for Noisy Labeled Stream Data [10.814099534254922]
そこで本研究では,品質モデルによるクリーンなサンプルの選択と,最も情報に富む真のラベルに対する託宣を積極的にクエリするQActorを提案する。
QActorは、データフィルタリングのための品質モデルの利点と、最も情報性の高いデータのクリーニングのためのオラクルクエリを素早く組み合わせます。
QActorの中心的な機能は、各データバッチの学習損失に応じてクエリ制限を動的に調整することである。
論文 参考訳(メタデータ) (2020-01-28T15:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。