論文の概要: Revisiting Hierarchical Text Classification: Inference and Metrics
- arxiv url: http://arxiv.org/abs/2410.01305v2
- Date: Fri, 11 Oct 2024 15:44:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 21:59:16.060108
- Title: Revisiting Hierarchical Text Classification: Inference and Metrics
- Title(参考訳): 階層的テキスト分類の再検討:推論とメトリクス
- Authors: Roman Plaud, Matthieu Labeau, Antoine Saillenfest, Thomas Bonald,
- Abstract要約: 階層的テキスト分類(階層的テキスト分類、hierarchical text classification)は、階層として整理された構造化空間内のテキストにラベルを割り当てるタスクである。
最近の研究は、HTCを従来のマルチラベル分類問題として扱い、そのように評価している。
本稿では,特に設計した階層的指標に基づくモデルの評価を提案し,計量選択と予測推定手法の複雑さを実証する。
- 参考スコア(独自算出の注目度): 4.057349748970303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical text classification (HTC) is the task of assigning labels to a text within a structured space organized as a hierarchy. Recent works treat HTC as a conventional multilabel classification problem, therefore evaluating it as such. We instead propose to evaluate models based on specifically designed hierarchical metrics and we demonstrate the intricacy of metric choice and prediction inference method. We introduce a new challenging dataset and we evaluate fairly, recent sophisticated models, comparing them with a range of simple but strong baselines, including a new theoretically motivated loss. Finally, we show that those baselines are very often competitive with the latest models. This highlights the importance of carefully considering the evaluation methodology when proposing new methods for HTC. Code implementation and dataset are available at \url{https://github.com/RomanPlaud/revisitingHTC}.
- Abstract(参考訳): 階層的テキスト分類(階層的テキスト分類、hierarchical text classification)は、階層として整理された構造化空間内のテキストにラベルを割り当てるタスクである。
最近の研究は、HTCを従来のマルチラベル分類問題として扱い、そのように評価している。
そこで我々は,具体的に設計された階層的指標に基づくモデルの評価を提案し,計量選択と予測推定法の複雑さを実証する。
我々は、新しい挑戦的なデータセットを導入し、比較的最近の洗練されたモデルを評価し、それらを、理論上動機付けられた新しい損失を含む、単純だが強力なベースラインと比較する。
最後に、これらのベースラインが最新のモデルと非常によく競合していることを示します。
このことは、HTCの新しい方法を提案する際に、評価方法論を慎重に検討することの重要性を強調している。
コードの実装とデータセットは \url{https://github.com/RomanPlaud/revisitingHTC} で公開されている。
関連論文リスト
- Retrieval-style In-Context Learning for Few-shot Hierarchical Text Classification [34.06292178703825]
大規模な言語モデル(LLM)を備えた最初のICLベースのフレームワークを,数ショットのHTC向けに紹介する。
検索データベースを利用して、関連する実演を識別し、多層階層ラベルを管理するための反復的なポリシーを用いる。
数ショットのHTCで最先端の成果が得られます。
論文 参考訳(メタデータ) (2024-06-25T13:19:41Z) - Open-Vocabulary Object Detection with Meta Prompt Representation and Instance Contrastive Optimization [63.66349334291372]
本稿ではメタプロンプトとインスタンスコントラスト学習(MIC)方式を用いたフレームワークを提案する。
まず、クラスとバックグラウンドのプロンプトを学習するプロンプトが新しいクラスに一般化するのを助けるために、新しいクラスエマージシナリオをシミュレートする。
第二に、クラス内コンパクト性とクラス間分離を促進するためのインスタンスレベルのコントラスト戦略を設計し、新しいクラスオブジェクトに対する検出器の一般化に寄与する。
論文 参考訳(メタデータ) (2024-03-14T14:25:10Z) - Utilizing Local Hierarchy with Adversarial Training for Hierarchical Text Classification [30.353876890557984]
階層的テキスト分類(HTC)は、その複雑な分類学的構造のために難しいサブタスクである。
我々は,ほぼすべてのHTCモデルに適合するHiAdvフレームワークを提案し,それを補助情報としてローカル階層で最適化する。
論文 参考訳(メタデータ) (2024-02-29T03:20:45Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - Hierarchical Verbalizer for Few-Shot Hierarchical Text Classification [10.578682558356473]
階層的テキスト分類(HTC)は、低リソースまたは少数ショットの設定を考慮すると、パフォーマンスが低下する。
本稿では,HTC を単一あるいは複数ラベルの分類問題として扱う多言語フレームワークである階層型動詞化器 (HierVerb) を提案する。
このように、HierVerbはラベル階層の知識を動詞化子に融合させ、グラフエンコーダを通じて階層を注入する者よりも著しく優れています。
論文 参考訳(メタデータ) (2023-05-26T12:41:49Z) - Constrained Sequence-to-Tree Generation for Hierarchical Text
Classification [10.143177923523407]
階層的テキスト分類(HTC)は、分類学内で複数の階層的に構造化されたカテゴリに文書を割り当てる難易度の高いタスクである。
本稿では,HTCをシーケンス生成タスクとして定式化し,階層的なラベル構造をモデル化するためのシーケンス・ツー・ツリー・フレームワーク(Seq2Tree)を導入する。
論文 参考訳(メタデータ) (2022-04-02T08:35:39Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - HTCInfoMax: A Global Model for Hierarchical Text Classification via
Information Maximization [75.45291796263103]
階層的テキスト分類のための現在の最新モデルHiAGMには2つの制限がある。
関連しない情報を含むデータセット内のすべてのラベルと、各テキストサンプルを関連付ける。
2つのモジュールを含む情報を導入することで、これらの問題に対処するHTCInfoMaxを提案します。
論文 参考訳(メタデータ) (2021-04-12T06:04:20Z) - Evaluating Large-Vocabulary Object Detectors: The Devil is in the
Details [107.2722027807328]
我々は、APのデフォルト実装はカテゴリー独立ではなく、適切に校正された検出器を直接報酬するものではないことを発見した。
既定の実装ではゲーム可能なメトリックが生成され、単純で非合理的な再ランクポリシーがAPを大きなマージンで改善できることが示される。
我々は,近年の大規模語彙検出の進歩をベンチマークし,新たなクラスごとの独立性評価において,多くの報告された利益が改善に結びついていないことを発見した。
論文 参考訳(メタデータ) (2021-02-01T18:56:02Z) - Small but Mighty: New Benchmarks for Split and Rephrase [18.959219419951083]
Split and Rephraseは、複雑な文をシンプルに書き換えるテキスト単純化タスクである。
広く使われているベンチマークデータセットは、簡単に利用できる構文的手がかりを普遍的に含んでいることがわかった。
単純なルールベースモデルであっても,最先端モデルと同等に動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-17T23:37:33Z) - Frustratingly Simple Few-Shot Object Detection [98.42824677627581]
希少なクラスにおける既存検出器の最後の層のみを微調整することは、数発の物体検出タスクに不可欠である。
このような単純なアプローチは、現在のベンチマークで約220ポイントのメタ学習方法より優れている。
論文 参考訳(メタデータ) (2020-03-16T00:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。