論文の概要: MOSLD-Bench: Multilingual Open-Set Learning and Discovery Benchmark for Text Categorization
- arxiv url: http://arxiv.org/abs/2601.13437v1
- Date: Mon, 19 Jan 2026 22:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.085284
- Title: MOSLD-Bench: Multilingual Open-Set Learning and Discovery Benchmark for Text Categorization
- Title(参考訳): MOSLD-Bench: テキスト分類のためのマルチリンガルなオープンセット学習と発見ベンチマーク
- Authors: Adriana-Valentina Costache, Daria-Nicoleta Dragomir, Silviu-Florin Gheorghe, Eduard Poesina, Paul Irofti, Radu Tudor Ionescu,
- Abstract要約: Open-set Learning and Discovery (OSLD)は、新しい(未知の)クラスからのサンプルがテスト時に現れる、困難な機械学習タスクである。
我々は12言語にわたる960Kのデータサンプルを含むトピック別テキスト分類のための、最初のマルチリンガルなオープンセット学習と発見ベンチマークを紹介した。
我々はOSLDタスクのための新しいフレームワークを提案し、複数のステージを統合して新しいクラスを継続的に発見し学習する。
- 参考スコア(独自算出の注目度): 19.052013102775273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-set learning and discovery (OSLD) is a challenging machine learning task in which samples from new (unknown) classes can appear at test time. It can be seen as a generalization of zero-shot learning, where the new classes are not known a priori, hence involving the active discovery of new classes. While zero-shot learning has been extensively studied in text classification, especially with the emergence of pre-trained language models, open-set learning and discovery is a comparatively new setup for the text domain. To this end, we introduce the first multilingual open-set learning and discovery (MOSLD) benchmark for text categorization by topic, comprising 960K data samples across 12 languages. To construct the benchmark, we (i) rearrange existing datasets and (ii) collect new data samples from the news domain. Moreover, we propose a novel framework for the OSLD task, which integrates multiple stages to continuously discover and learn new classes. We evaluate several language models, including our own, to obtain results that can be used as reference for future work. We release our benchmark at https://github.com/Adriana19Valentina/MOSLD-Bench.
- Abstract(参考訳): Open-set Learning and Discovery (OSLD)は、新しい(未知の)クラスからのサンプルがテスト時に現れる、困難な機械学習タスクである。
これはゼロショット学習の一般化と見なすことができ、そこでは新しいクラスは事前の知識がないため、新しいクラスが活発に発見される。
ゼロショット学習は、特に事前訓練された言語モデルの出現とともに、テキスト分類において広範囲に研究されてきたが、オープンセット学習と発見は、テキストドメインにとって比較的新しい設定である。
そこで本研究では,12言語にまたがる960Kのデータサンプルを対象とする,テキスト分類のためのMOSLD(Multilingual Open-set Learning and Discovery)ベンチマークを提案する。
ベンチマークを構築するには
(i)既存のデータセットを並べ替える
(ii)ニュースドメインから新しいデータサンプルを収集する。
さらに,複数の段階を統合して新しいクラスを継続的に発見・学習するOSLDタスクのための新しいフレームワークを提案する。
今後の作業の参考として使用できる結果を得るために,我々の言語モデルを含むいくつかの言語モデルを評価する。
ベンチマークはhttps://github.com/Adriana19Valentina/MOSLD-Bench.comで公開しています。
関連論文リスト
- Classifying the Unknown: In-Context Learning for Open-Vocabulary Text and Symbol Recognition [3.667678728817253]
文書中の新しいスクリプトパターンのシーケンスを分類するために,Multimodal In-Context Learning (MICL)を活用するマルチモーダルモデルであるRosettaを導入する。
提案手法の重要な強みは,オープン語彙分類を可能にするコンテキスト認識トークンライザ(CAT)を使用することである。
結果として、新しいアルファベットや言語の認識などのアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2025-04-09T12:58:25Z) - ViLCo-Bench: VIdeo Language COntinual learning Benchmark [8.660555226687098]
ビデオテキストタスクの連続学習モデルを評価するために設計されたViLCo-Benchを提案する。
データセットは10分間のビデオと、公開されているデータセットから収集された対応する言語クエリで構成されている。
本稿では,自己教師付き学習を取り入れ,長期記憶効果と短期記憶効果を模倣する新しい記憶効率フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-19T00:38:19Z) - Adaptable and Reliable Text Classification using Large Language Models [7.962669028039958]
本稿では,Large Language Models(LLMs)を活用した適応的で信頼性の高いテキスト分類パラダイムを提案する。
我々は、4つの多様なデータセット上で、複数のLLM、機械学習アルゴリズム、ニューラルネットワークベースのアーキテクチャの性能を評価した。
システムの性能は、少数ショットや微調整の戦略によってさらに向上することができる。
論文 参考訳(メタデータ) (2024-05-17T04:05:05Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - CL-MASR: A Continual Learning Benchmark for Multilingual ASR [15.974765568276615]
連続学習環境における多言語自動音声認識のベンチマークであるCL-MASRを提案する。
CL-MASRは、大規模事前訓練されたASRモデル上に実装された多種多様な連続学習手法と共通のメトリクスを提供する。
我々の知る限り、CL-MASRは多言語ASRタスクのための最初の連続学習ベンチマークである。
論文 参考訳(メタデータ) (2023-10-25T18:55:40Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Few-Shot Class-Incremental Learning by Sampling Multi-Phase Tasks [59.12108527904171]
モデルは新しいクラスを認識し、古いクラスに対する差別性を維持すべきである。
古いクラスを忘れずに新しいクラスを認識するタスクは、FSCIL ( few-shot class-incremental Learning) と呼ばれる。
我々は,LearnIng Multi-phase Incremental Tasks (LIMIT) によるメタラーニングに基づくFSCILの新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:46:41Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - Open-World Semi-Supervised Learning [66.90703597468377]
本稿では,従来のクラスを認識するためにモデルを必要とする,新しいオープンワールド半教師付き学習環境を提案する。
データの分類とクラスタ化を同時に行うアプローチであるORCAを提案する。
我々は,ORCAが新しいクラスを正確に発見し,ベンチマーク画像分類データセット上で以前に見られたクラスにサンプルを割り当てることを示した。
論文 参考訳(メタデータ) (2021-02-06T07:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。