論文の概要: IndoBERT-Relevancy: A Context-Conditioned Relevancy Classifier for Indonesian Text
- arxiv url: http://arxiv.org/abs/2603.26095v1
- Date: Fri, 27 Mar 2026 05:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.367659
- Title: IndoBERT-Relevancy: A Context-Conditioned Relevancy Classifier for Indonesian Text
- Title(参考訳): IndoBERT-relevancy: インドネシア語テキストの文脈記述型関連分類器
- Authors: Muhammad Apriandito Arya Saputra, Andry Alamsyah, Dian Puteri Ramadhani, Thomhert Suprapto Siadari, Hanif Fakhrurroja,
- Abstract要約: IndoBERT-Relevancyは、IndoBERT Largeパラメータ上に構築されたコンテキスト条件の関連性分類器である。
私たちは188のトピックにまたがる31,360のラベル付きペアのデータセットをトレーニングしました。
最終モデルはF1スコア0.948、精度96.5%であり、インドネシアの形式テキストと非公式テキストの両方を扱う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Determining whether a piece of text is relevant to a given topic is a fundamental task in natural language processing, yet it remains largely unexplored for Bahasa Indonesia. Unlike sentiment analysis or named entity recognition, relevancy classification requires the model to reason about the relationship between two inputs simultaneously: a topical context and a candidate text. We introduce IndoBERT-Relevancy, a context-conditioned relevancy classifier built on IndoBERT Large (335M parameters) and trained on a novel dataset of 31,360 labeled pairs spanning 188 topics. Through an iterative, failure-driven data construction process, we demonstrate that no single data source is sufficient for robust relevancy classification, and that targeted synthetic data can effectively address specific model weaknesses. Our final model achieves an F1 score of 0.948 and an accuracy of 96.5%, handling both formal and informal Indonesian text. The model is publicly available at HuggingFace.
- Abstract(参考訳): テキストが与えられたトピックに関連するかどうかを判断することは自然言語処理の基本的な課題であるが、バハサ・インドネシアでは明らかにされていない。
感情分析や名前付きエンティティ認識とは異なり、関連性分類では、トピックの文脈と候補のテキストという2つの入力の関係を同時に推論する必要がある。
IndoBERT-Relevancyは、IndoBERT Large(335Mパラメータ)上に構築され、188のトピックにまたがる31,360のラベル付きペアのデータセットでトレーニングされたコンテキスト条件の関連性分類器である。
反復的かつ障害駆動型データ構築プロセスを通じて、ロバストな関連性分類には単一のデータソースが十分ではなく、ターゲットとする合成データが特定のモデルの弱点に効果的に対処できることを実証する。
最終モデルはF1スコア0.948、精度96.5%であり、インドネシアの形式テキストと非公式テキストの両方を扱う。
このモデルはHuggingFaceで公開されている。
関連論文リスト
- GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training [1.4231093967875448]
General Arabic Text Embedding (GATE) モデルはMTEBベンチマークのセマンティックテキスト類似性タスクで最先端のパフォーマンスを達成する。
Gateは、STSベンチマークで20-25%のパフォーマンス改善により、OpenAIを含むより大きなモデルを上回っている。
論文 参考訳(メタデータ) (2025-05-30T13:29:03Z) - Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - Optimal strategies to perform multilingual analysis of social content for a novel dataset in the tourism domain [5.519653885553456]
我々は、観光関連ツイートからなる観光ドメイン向けに、初めて公開された多言語データセット(フランス語、英語、スペイン語)を構築した。
我々の結果は、新しいデータセットに基づいて、新しいドメイン固有のアプリケーションにNLPを適用するための道を開いた。
論文 参考訳(メタデータ) (2023-11-20T13:08:21Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Analyzing Vietnamese Legal Questions Using Deep Neural Networks with
Biaffine Classifiers [3.116035935327534]
我々は深層ニューラルネットワークを用いてベトナムの法的問題から重要な情報を抽出することを提案する。
自然言語で法的疑問が与えられた場合、その疑問に答えるために必要な情報を含む全てのセグメントを抽出することが目的である。
論文 参考訳(メタデータ) (2023-04-27T18:19:24Z) - Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent
Semantic Parsing [52.24507547010127]
ドメイン間コンテキスト依存のセマンティック解析は研究の新たな焦点である。
本稿では,コンテキストの発話,トークン,データベーススキーマ,会話の進行に伴う複雑なインタラクションを効果的にモデル化する動的グラフフレームワークを提案する。
提案したフレームワークは既存のモデルを大きなマージンで上回り、2つの大規模ベンチマークで新しい最先端性能を達成する。
論文 参考訳(メタデータ) (2021-01-05T18:11:29Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - FAT ALBERT: Finding Answers in Large Texts using Semantic Similarity
Attention Layer based on BERT [0.5772546394254112]
本研究では,最先端の変圧器ネットワークであるBERTをベースとしたモデルを構築した。
私たちは、テスト精度87.79%のリーダーボードで第1位にランクされています。
論文 参考訳(メタデータ) (2020-08-22T08:04:21Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。