論文の概要: TartuNLP at SemEval-2025 Task 5: Subject Tagging as Two-Stage Information Retrieval
- arxiv url: http://arxiv.org/abs/2504.21547v1
- Date: Wed, 30 Apr 2025 11:44:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 19:08:16.355165
- Title: TartuNLP at SemEval-2025 Task 5: Subject Tagging as Two-Stage Information Retrieval
- Title(参考訳): TartuNLP at SemEval-2025 Task 5: Subject Tagging as Two-Stage Information Retrieval
- Authors: Aleksei Dorkin, Kairit Sirts,
- Abstract要約: 我々はSemEval-2025のタスク5に提出する。
本課題は,図書館の図書館記録に被写体タグを割り当てる際の図書館員の支援を目的として,当該文書に関連性のあるタグのリストを作成することである。
2種類のエンコーダモデルを用いて2段階情報検索システムを構築する。
- 参考スコア(独自算出の注目度): 0.21485350418225246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present our submission to the Task 5 of SemEval-2025 that aims to aid librarians in assigning subject tags to the library records by producing a list of likely relevant tags for a given document. We frame the task as an information retrieval problem, where the document content is used to retrieve subject tags from a large subject taxonomy. We leverage two types of encoder models to build a two-stage information retrieval system -- a bi-encoder for coarse-grained candidate extraction at the first stage, and a cross-encoder for fine-grained re-ranking at the second stage. This approach proved effective, demonstrating significant improvements in recall compared to single-stage methods and showing competitive results according to qualitative evaluation.
- Abstract(参考訳): 本論文では,図書館記録に被写体タグを付与する際の図書館職員の支援を目的とした文書関連タグのリストを作成することを目的として,SemEval-2025のタスク5を提示する。
我々は,タスクを情報検索問題とみなし,文書の内容を用いて大規模分類群から対象のタグを検索する。
2種類のエンコーダモデルを用いて,2段階情報検索システムを構築する。第1段階では粗粒度候補抽出用バイエンコーダ,第2段階では微粒度再分類用クロスエンコーダである。
この手法は, 単段法と比較してリコールの大幅な改善を示し, 定性評価による競争結果を示した。
関連論文リスト
- Homa at SemEval-2025 Task 5: Aligning Librarian Records with OntoAligner for Subject Tagging [1.2582887633807602]
本稿では,SemEval-2025 Task 5: Subject TaggingのためのHomaについて述べる。
GND(Gemeinsame Normdatei)分類を用いて、TIBKATの技術的記録に主題ラベルを自動的に割り当てることに焦点を当てている。
提案手法では,対象のタグ付け問題をアライメントタスクとして定式化し,意味的類似性に基づいたカテゴリにレコードをマッチングする。
論文 参考訳(メタデータ) (2025-04-30T09:52:51Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Leveraging Semantic Segmentation Masks with Embeddings for Fine-Grained Form Classification [0.0]
史料の効率的な分類は系譜学、法学、歴史学などの分野において重要である。
本稿では、ResNet、マスク付き画像変換器(Di)、埋め込みセグメンテーションなどのディープラーニングモデルを統合した表現型学習戦略を提案する。
論文 参考訳(メタデータ) (2024-05-23T04:28:50Z) - Cross Encoding as Augmentation: Towards Effective Educational Text
Classification [9.786833703453741]
本稿では,教育用テキスト分類における効果的な学習を支援する新しい検索手法CEAAを提案する。
主な貢献は次の通りである: 1) 質問応答データセットからの移動学習を活用し、2) 単純だが効果的なデータ拡張法を提案する。
論文 参考訳(メタデータ) (2023-05-30T12:19:30Z) - Retrieval-augmented Multi-label Text Classification [20.100081284294973]
マルチラベルテキスト分類は、大きなラベルセットの設定において難しい課題である。
Retrieval augmentationは、分類モデルのサンプル効率を改善することを目的としている。
本手法は,法および生物医学領域の4つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2023-05-22T14:16:23Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - Focused Attention Improves Document-Grounded Generation [111.42360617630669]
文書基盤生成は、文書に提供される情報を用いてテキスト生成を改善するタスクである。
本研究はwikipedia更新生成タスクと対話応答生成という2つの異なる文書基底生成タスクに焦点を当てている。
論文 参考訳(メタデータ) (2021-04-26T16:56:29Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z) - Summary-Source Proposition-level Alignment: Task, Datasets and
Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。
本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。
我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。
教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文 参考訳(メタデータ) (2020-09-01T17:27:12Z) - Minimally Supervised Categorization of Text with Metadata [40.13841133991089]
メタデータでテキストを分類する最小限のフレームワークであるMetaCatを提案する。
我々は,単語,文書,ラベル,メタデータ間の関係を記述した生成プロセスを開発する。
同じ生成過程に基づいて,ラベル不足のボトルネックに対処するため,トレーニングサンプルを合成する。
論文 参考訳(メタデータ) (2020-05-01T21:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。