論文の概要: Soft Contextualized Encoder For User Defined Text Classification
- arxiv url: http://arxiv.org/abs/2601.03450v1
- Date: Tue, 06 Jan 2026 22:34:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.081375
- Title: Soft Contextualized Encoder For User Defined Text Classification
- Title(参考訳): ユーザ定義テキスト分類のためのソフトコンテクスト化エンコーダ
- Authors: Charu Maheshwari, Vyas Raina,
- Abstract要約: User-Defined Text Classification (UDTC) は、入力テキストをユーザ指定の未確認クラスに分類することの難しさを考察している。
本稿では,各候補ラベルをラベルセットで文脈化し,入力クエリの静的なソフトプロンプト表現を行うUDTC用ソフトコンテクスト化エンコーダアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 2.6107088019301252
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: User-Defined Text Classification (UDTC) considers the challenge of classifying input text to user-specified, previously unseen classes, a setting that arises frequently in real-world applications such as enterprise analytics, content moderation, and domain-specific information retrieval. We propose a soft-contextualized encoder architecture for UDTC which contextualizes each candidate label with the label set and a static soft prompt representation of the input query. Training on diverse, multi-source datasets enables the model to generalize effectively to zero-shot classification over entirely unseen topic sets drawn from arbitrary domains. We evaluate the proposed architecture both on held-out in-distribution test data and on multiple unseen UDTC benchmarks. Across datasets, the model achieves state-of-the-art performance, consistently outperforming or matching the baselines.
- Abstract(参考訳): User-Defined Text Classification (UDTC) は、エンタープライズ分析、コンテンツモデレーション、ドメイン固有の情報検索といった現実世界のアプリケーションで頻繁に発生する設定である、ユーザ特定クラスに入力テキストを分類する課題を考察している。
本稿では,各候補ラベルをラベルセットで文脈化し,入力クエリの静的なソフトプロンプト表現を行うUDTC用ソフトコンテクスト化エンコーダアーキテクチャを提案する。
多様なマルチソースデータセットのトレーニングにより、任意のドメインから引き出された完全に見えないトピックセットに対して、ゼロショット分類に効果的に一般化することができる。
提案したアーキテクチャは,複数の未確認UDTCベンチマークと分散試験データの両方で評価する。
データセット全体にわたって、モデルは最先端のパフォーマンスを達成し、ベースラインを一貫して上回るか、あるいは一致させる。
関連論文リスト
- SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation [72.28364940168092]
オープン語彙セマンティックセグメンテーションモデルは、視覚とテキストを関連付け、テキストクエリを使用して未定義のクラスの集合からピクセルをラベル付けする。
本稿では,セマンティックライブラリ適応(Semantic Library Adaptation, SemLA)を紹介する。
論文 参考訳(メタデータ) (2025-03-27T17:59:58Z) - Empirical Evaluation of Embedding Models in the Context of Text Classification in Document Review in Construction Delay Disputes [6.076874513889027]
テキスト埋め込みはテキストデータの数値表現であり、単語、フレーズ、文書全体を実数のベクトルに変換する。
本稿では,4つの異なるモデルの包括的比較分析を通じて,異なる埋め込みを評価する作業について述べる。
K-Nearest Neighbors (KNN) と Logistic Regression (LR) の両方を用いてバイナリ分類タスクを行い、特にラベル付きデータセット内でテキストスニペットが 'delay' あるいは 'not delay' に関連付けられているかどうかを判断する。
論文 参考訳(メタデータ) (2025-01-16T22:12:11Z) - Automated Collection of Evaluation Dataset for Semantic Search in Low-Resource Domain Language [4.5224851085910585]
多くの特定の用語を使用するドメイン固有言語は、しばしば低リソース言語に分類される。
本研究では,低リソースなドメイン固有ドイツ語のセマンティック検索を評価するために,テストデータセットの自動収集という課題に対処する。
論文 参考訳(メタデータ) (2024-12-13T09:47:26Z) - Towards Open-Domain Topic Classification [69.21234350688098]
ユーザが定義した分類をリアルタイムで受け入れるオープンドメイントピック分類システムを導入する。
ユーザは、任意の候補ラベルに対してテキストスニペットを分類し、Webインターフェースから即座にレスポンスを受け取ることができます。
論文 参考訳(メタデータ) (2023-06-29T20:25:28Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - ConCET: Entity-Aware Topic Classification for Open-Domain Conversational
Agents [9.870634472479571]
ConCET: Concurrent Entity-aware conversational Topic Classifierを紹介する。
本稿では,合成学習データを生成するための簡便で効果的な手法を提案する。
我々はAmazon Alexa Prizeの一部として収集された実際のユーザとの人間と機械の会話の大規模なデータセットでConCETを評価した。
論文 参考訳(メタデータ) (2020-05-28T06:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。