論文の概要: An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?
- arxiv url: http://arxiv.org/abs/2603.10876v1
- Date: Wed, 11 Mar 2026 15:24:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.026249
- Title: An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?
- Title(参考訳): XMTC (Extreme Multi-label Text Classification) ライブラリデータセット: "デジタルライブラリにおける実践的AIの利用" を真剣に用いた場合はどうだろう?
- Authors: Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma Suominen,
- Abstract要約: 統合オーソリティファイル (Integrated Authority File, GND) に注釈付きカタログレコードの大規模なバイリンガルコーパス(英語/ドイツ語)をリリースする。
このリソースは、複数ラベルの分類、テキストのオーソリティ用語へのマッピング、再現可能なオーソリティグラウンド評価によるエージェント支援カタログ作成を可能にする。
私たちはコミュニティに、正確さだけでなく有用性や透明性も評価するよう呼びかけます。
- 参考スコア(独自算出の注目度): 1.1115066819781372
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Subject indexing is vital for discovery but hard to sustain at scale and across languages. We release a large bilingual (English/German) corpus of catalog records annotated with the Integrated Authority File (GND), plus a machine-actionable GND taxonomy. The resource enables ontology-aware multi-label classification, mapping text to authority terms, and agent-assisted cataloging with reproducible, authority-grounded evaluation. We provide a brief statistical profile and qualitative error analyses of three systems. We invite the community to assess not only accuracy but usefulness and transparency, toward authority-anchored AI co-pilots that amplify catalogers' work.
- Abstract(参考訳): 対象の索引付けは発見には不可欠だが、規模や言語間での持続は困難である。
統合オーソリティファイル (Integrated Authority File, GND) に注釈付けされたカタログレコードの大規模なバイリンガル(英語/ドイツ語)コーパスと, 機械操作可能なGND分類を公表する。
このリソースは、オントロジーを意識したマルチラベル分類、権威用語へのテキストのマッピング、再現性のある権威に基づく評価によるエージェント支援カタログ作成を可能にする。
本稿では,3つのシステムの簡単な統計プロファイルと定性的誤差解析を行う。
私たちはコミュニティに、正確さだけでなく有用性や透明性も評価するよう呼びかけます。
関連論文リスト
- Do LLMs Judge Distantly Supervised Named Entity Labels Well? Constructing the JudgeWEL Dataset [8.437906092903582]
ルクセンブルク語で名前付きエンティティ認識(NER)のためのデータセットである judgeWEL を,大規模言語モデル(LLM)を用いて自動的にラベル付けし,検証する。
ウィキペディアの記事の内部リンクを利用して、対応するウィキデータエントリに基づいてエンティティタイプを推論する。
このようなリンクは均一に信頼性がないため、高品質なラベル付き文のみを識別・保持するために複数のLLMを使用・比較することによりノイズを軽減する。
論文 参考訳(メタデータ) (2026-01-01T17:53:38Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - From Citations to Criticality: Predicting Legal Decision Influence in the Multilingual Swiss Jurisprudence [16.529070321280447]
本稿では,ケース優先性を評価するための新たなリソースであるCriticality Predictionデータセットを紹介する。
本データセットは,(1)二段式LD-Label,(2)より粒度の細かいCitation-Label,(2)二段式LD-Label,(2)二段式LD-Labelを特徴とする。
より小型の微調整モデルと大型の言語モデルを含む複数の多言語モデルをゼロショット設定で評価する。
論文 参考訳(メタデータ) (2024-10-17T11:43:16Z) - TnT-LLM: Text Mining at Scale with Large Language Models [24.731544646232962]
大規模言語モデル(LLM)は、最小限の努力でエンドツーエンドのラベル生成と割り当てのプロセスを自動化する。
我々は,TnT-LLMが最先端のベースラインと比較した場合,より正確で関連性の高いラベルを生成することを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
論文 参考訳(メタデータ) (2024-03-18T18:45:28Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Hierarchical Catalogue Generation for Literature Review: A Benchmark [36.22298354302282]
本稿では,7.6kの文献レビューカタログと389kの参考論文を収録した,新しい英語階層カタログ・オブ・文学レビューデータセットを構築した。
モデルの性能を正確に評価するために,2つの評価指標を設計する。
論文 参考訳(メタデータ) (2023-04-07T07:13:35Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。