論文の概要: Test-Time Self-Adaptive Small Language Models for Question Answering
- arxiv url: http://arxiv.org/abs/2310.13307v1
- Date: Fri, 20 Oct 2023 06:49:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 00:05:48.900740
- Title: Test-Time Self-Adaptive Small Language Models for Question Answering
- Title(参考訳): 質問応答のためのテスト時間自己適応小言語モデル
- Authors: Soyeong Jeong, Jinheon Baek, Sukmin Cho, Sung Ju Hwang, Jong C. Park
- Abstract要約: ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
- 参考スコア(独自算出の注目度): 63.91013329169796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent instruction-finetuned large language models (LMs) have achieved
notable performances in various tasks, such as question-answering (QA).
However, despite their ability to memorize a vast amount of general knowledge
across diverse tasks, they might be suboptimal on specific tasks due to their
limited capacity to transfer and adapt knowledge to target tasks. Moreover,
further finetuning LMs with labeled datasets is often infeasible due to their
absence, but it is also questionable if we can transfer smaller LMs having
limited knowledge only with unlabeled test data. In this work, we show and
investigate the capabilities of smaller self-adaptive LMs, only with unlabeled
test data. In particular, we first stochastically generate multiple answers,
and then ensemble them while filtering out low-quality samples to mitigate
noise from inaccurate labels. Our proposed self-adaption strategy demonstrates
significant performance improvements on benchmark QA datasets with higher
robustness across diverse prompts, enabling LMs to stay stable. Code is
available at: https://github.com/starsuzi/T-SAS.
- Abstract(参考訳): 近年の命令精細大言語モデル (LM) は質問応答 (QA) など,様々なタスクにおいて顕著な性能を発揮している。
しかしながら、様々なタスクにまたがる膨大な一般知識を記憶する能力があるにもかかわらず、ターゲットタスクに知識を移し適応する能力が限られているため、特定のタスクに最適ではないかもしれない。
さらに、ラベル付きデータセットによるさらなる微調整は、それらがないためにしばしば実現できないが、ラベル付きテストデータだけで限られた知識を持つ小さなLMを転送できるかどうかも疑問である。
本研究では,ラベルのないテストデータのみを用いて,より小さな自己適応型LMの能力を示す。
特に,まず複数の回答を確率的に生成し,低品質なサンプルをフィルタリングし,不正確なラベルからノイズを除去する。
提案した自己適応戦略は,様々なプロンプトにまたがる高いロバスト性を有するベンチマークQAデータセットの性能向上を示す。
コードは、https://github.com/starsuzi/T-SAS.comで入手できる。
関連論文リスト
- Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation [59.91488389687633]
大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA
Tasks? A: Self-Train on Unlabeled Images! [103.09776737512077]
SelTDA(Self-Taught Data Augmentation)は、小規模なVQAデータセット上で大きな視覚言語モデルを微調整するための戦略である。
画像上に直接条件付の疑似ラベルを生成することで、未ラベル画像の疑似ラベル作成を可能にする。
我々は, 自己学習によるデータ拡張が, 対向的に検索された質問に対して堅牢性を高めることを示す一連の実験について述べる。
論文 参考訳(メタデータ) (2023-06-06T18:00:47Z) - How Predictable Are Large Language Model Capabilities? A Case Study on
BIG-bench [52.11481619456093]
実験記録におけるBIGベンチの性能予測問題について検討する。
95%以上のR2$スコアは、実験記録の中に学習可能なパターンが存在することを示している。
BIG-bench Hardのように新しいモデルファミリーを評価できるサブセットが3倍程度小さくなっています。
論文 参考訳(メタデータ) (2023-05-24T09:35:34Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z) - QActor: On-line Active Learning for Noisy Labeled Stream Data [10.814099534254922]
そこで本研究では,品質モデルによるクリーンなサンプルの選択と,最も情報に富む真のラベルに対する託宣を積極的にクエリするQActorを提案する。
QActorは、データフィルタリングのための品質モデルの利点と、最も情報性の高いデータのクリーニングのためのオラクルクエリを素早く組み合わせます。
QActorの中心的な機能は、各データバッチの学習損失に応じてクエリ制限を動的に調整することである。
論文 参考訳(メタデータ) (2020-01-28T15:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。