論文の概要: DRAFT: Dense Retrieval Augmented Few-shot Topic classifier Framework
- arxiv url: http://arxiv.org/abs/2312.02532v1
- Date: Tue, 5 Dec 2023 06:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 16:42:09.391935
- Title: DRAFT: Dense Retrieval Augmented Few-shot Topic classifier Framework
- Title(参考訳): ドラフト: 高密度検索によるトピック分類フレームワークの拡張
- Authors: Keonwoo Kim and Younggun Lee
- Abstract要約: DRAFTは、いくつかのトピック分類のための分類器を訓練するために設計されたフレームワークである。
広く使われている分類ベンチマークデータセットと291の多様なトピックを手作業で構築したデータセットの評価を行う。
DRAFTは、コンテキスト内学習を使用するベースラインと比較して、競争力や優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 3.183639955912721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing volume of diverse information, the demand for classifying
arbitrary topics has become increasingly critical. To address this challenge,
we introduce DRAFT, a simple framework designed to train a classifier for
few-shot topic classification. DRAFT uses a few examples of a specific topic as
queries to construct Customized dataset with a dense retriever model.
Multi-query retrieval (MQR) algorithm, which effectively handles multiple
queries related to a specific topic, is applied to construct the Customized
dataset. Subsequently, we fine-tune a classifier using the Customized dataset
to identify the topic. To demonstrate the efficacy of our proposed approach, we
conduct evaluations on both widely used classification benchmark datasets and
manually constructed datasets with 291 diverse topics, which simulate diverse
contents encountered in real-world applications. DRAFT shows competitive or
superior performance compared to baselines that use in-context learning, such
as GPT-3 175B and InstructGPT 175B, on few-shot topic classification tasks
despite having 177 times fewer parameters, demonstrating its effectiveness.
- Abstract(参考訳): 多様な情報量の増加に伴い、任意のトピックを分類する需要がますます重要になっている。
この課題に対処するために,少人数のトピック分類のための分類器をトレーニングするためのシンプルなフレームワークであるdraftを紹介する。
DRAFTは、特定のトピックのいくつかの例をクエリとして使用し、密集した検索モデルでカスタマイズデータセットを構築する。
特定のトピックに関連する複数のクエリを効果的に処理するマルチクエリ検索(MQR)アルゴリズムを適用し、カスタマイズデータセットを構築する。
その後、カスタマイズデータセットを使用して分類器を微調整してトピックを識別する。
提案手法の有効性を実証するため,広範に使用されている分類ベンチマークデータセットと291の多様なトピックを手作業で構築したデータセットを用いて評価を行った。
gpt-3 175bやinstructgpt 175bといったコンテキスト内学習を使用するベースラインと比較して,177分の1のパラメータしか持たないにも関わらず,限定的なトピック分類タスクでは,競合性や優れたパフォーマンスを示す。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Improving Retrieval in Theme-specific Applications using a Corpus
Topical Taxonomy [52.426623750562335]
ToTER (Topical Taxonomy Enhanced Retrieval) フレームワークを紹介する。
ToTERは、クエリとドキュメントの中心的なトピックを分類学のガイダンスで識別し、そのトピックの関連性を利用して、欠落したコンテキストを補う。
プラグイン・アンド・プレイのフレームワークとして、ToTERは様々なPLMベースのレトリバーを強化するために柔軟に使用できる。
論文 参考訳(メタデータ) (2024-03-07T02:34:54Z) - DORIS-MAE: Scientific Document Retrieval using Multi-level Aspect-based
Queries [2.4816250611120547]
マルチレベルAspect-based queries (DORIS-MAE) を用いた科学的文書検索手法を提案する。
複雑な問合せごとに100の関連文書を集め、それらのランキングに注釈付きの関連スコアを生成した。
Anno-GPTは、専門家レベルのデータセットアノテーションタスクにおいて、LLM(Large Language Models)のパフォーマンスを検証するためのフレームワークである。
論文 参考訳(メタデータ) (2023-10-07T03:25:06Z) - Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。
ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:43:30Z) - Language-aware Multiple Datasets Detection Pretraining for DETRs [4.939595148195813]
本稿では,METR と呼ばれる DETR 型検出器の事前学習に複数のデータセットを利用するためのフレームワークを提案する。
事前訓練された言語モデルを導入することにより、オブジェクト検出の典型的なマルチクラス化をバイナリ分類に変換する。
マルチタスク・ジョイントトレーニングとプレトレイン・ファネチューン・パラダイムのいずれにおいても,METRは異常な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-07T10:34:04Z) - Active metric learning and classification using similarity queries [21.589707834542338]
本稿では、キーコンポーネントが類似性を反映したデータの表現を学習している問題に対して、新しい統合クエリフレームワークを適用することができることを示す。
提案手法の有効性を,アクティブなメトリック学習とアクティブな分類という2つの課題で実証する。
論文 参考訳(メタデータ) (2022-02-04T03:34:29Z) - Aspect-Oriented Summarization through Query-Focused Extraction [23.62412515574206]
実際のユーザのニーズは、特定のクエリではなく、ユーザが興味を持っているデータセットの幅広いトピックという側面に、より深く浸透することが多い。
抽出クエリに焦点を絞った学習手法をベンチマークし、モデルを訓練するための対照的な拡張手法を提案する。
我々は2つのアスペクト指向データセットを評価し、この手法が一般的な要約システムよりも焦点を絞った要約を得られることを発見した。
論文 参考訳(メタデータ) (2021-10-15T18:06:21Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z) - Query Understanding via Intent Description Generation [75.64800976586771]
問合せ理解のためのQ2ID(Query-to-Intent-Description)タスクを提案する。
クエリとその記述を利用してドキュメントの関連性を計算する既存のランキングタスクとは異なり、Q2IDは自然言語のインテント記述を生成するための逆タスクである。
Q2IDタスクにおける複数の最先端生成モデルとの比較により,本モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-25T08:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。