論文の概要: Taggus: An Automated Pipeline for the Extraction of Characters' Social Networks from Portuguese Fiction Literature
- arxiv url: http://arxiv.org/abs/2508.03358v1
- Date: Tue, 05 Aug 2025 12:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.945228
- Title: Taggus: An Automated Pipeline for the Extraction of Characters' Social Networks from Portuguese Fiction Literature
- Title(参考訳): Taggus: ポルトガルのフィクション文学からキャラクターのソーシャルネットワークを抽出するための自動パイプライン
- Authors: Tiago G Canário, Catarina Duarte, Flávio L. Pinheiro, João L. M. Pereira,
- Abstract要約: 我々はタッグスと呼ばれるパイプラインを提案し、ポルトガルの文学作品からソーシャルネットワークを抽出する。
その結果,手軽に利用できるState-of-the-Artツールと比較して,パイプラインは満足な結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 1.0049627844029956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically identifying characters and their interactions from fiction books is, arguably, a complex task that requires pipelines that leverage multiple Natural Language Processing (NLP) methods, such as Named Entity Recognition (NER) and Part-of-speech (POS) tagging. However, these methods are not optimized for the task that leads to the construction of Social Networks of Characters. Indeed, the currently available methods tend to underperform, especially in less-represented languages, due to a lack of manually annotated data for training. Here, we propose a pipeline, which we call Taggus, to extract social networks from literary fiction works in Portuguese. Our results show that compared to readily available State-of-the-Art tools -- off-the-shelf NER tools and Large Language Models (ChatGPT) -- the resulting pipeline, which uses POS tagging and a combination of heuristics, achieves satisfying results with an average F1-Score of $94.1\%$ in the task of identifying characters and solving for co-reference and $75.9\%$ in interaction detection. These represent, respectively, an increase of $50.7\%$ and $22.3\%$ on results achieved by the readily available State-of-the-Art tools. Further steps to improve results are outlined, such as solutions for detecting relationships between characters. Limitations on the size and scope of our testing samples are acknowledged. The Taggus pipeline is publicly available to encourage development in this field for the Portuguese language.2
- Abstract(参考訳): 複数の自然言語処理(NLP)手法を利用するパイプラインを必要とする複雑なタスクとして、名前付きエンティティ認識(NER)やPOS(Part-of-speech)タグ付けがある。
しかし,これらの手法は,ソーシャルネットワーク・オブ・キャラクタの構築に繋がるタスクに最適化されていない。
実際、現在利用可能なメソッドは、特にあまり表現されていない言語では、トレーニング用に手動でアノテートされたデータが欠如しているため、パフォーマンスが低くなる傾向にある。
本稿では,ポルトガルの文学作品からソーシャルネットワークを抽出するパイプラインを提案する。
以上の結果から,POSタグとヒューリスティックスを組み合わせたパイプラインは,手軽に利用可能なステート・オブ・ザ・アーツツール – 既製のNERツールと大規模言語モデル(ChatGPT) – と比較して,平均的なF1スコア94.1\%の満足度を達成し,インタラクション検出における文字識別と共参照の解決のタスクにおいて,75.9\%のコストを達成できることが示唆された。
これらはそれぞれ、利用可能なState-of-the-Artツールによって達成された結果に対して、50.7\%$と22.3\%$の増加を表している。
文字間の関係を検出するソリューションなど、結果を改善するためのさらなるステップを概説する。
テストサンプルのサイズとスコープに関する制限が認められます。
Taggusパイプラインは、ポルトガル語のこの分野の開発を促進するために公開されている。
関連論文リスト
- Performance Analysis of Few-Shot Learning Approaches for Bangla Handwritten Character and Digit Recognition [0.9895793818721335]
本研究は,Bangla手書き文字と数字の認識における数ショット学習手法の性能について検討する。
本稿では,手書き文字と数字の認識精度を向上させるために設計されたハイブリッドネットワークであるSynergiProtoNetを紹介する。
論文 参考訳(メタデータ) (2025-05-31T08:03:10Z) - The Role of Natural Language Processing Tasks in Automatic Literary Character Network Construction [6.633914491587503]
本稿では、共起ネットワーク抽出における名前付きエンティティ認識(NER)とコア参照解決の役割に焦点を当てる。
我々は,NERの性能がテストされたノベルに依存し,文字検出に強く影響を及ぼすことを示した。
また、NER検出された参照は、多くの文字共起を見逃しているだけで、それを防ぐためにコア参照の解決が必要であることも示しています。
論文 参考訳(メタデータ) (2024-12-16T08:46:53Z) - Zero-shot prompt-based classification: topic labeling in times of foundation models in German Tweets [1.734165485480267]
そこで,本論文では,文章ガイドラインを用いてテキストを自動的に注釈付けするツールについて,トレーニングサンプルを提供することなく提案する。
提案手法は細調整されたBERTに匹敵するが,アノテートしたトレーニングデータはない。
本研究は,NLPランドスケープにおける進行中のパラダイムシフト,すなわち下流タスクの統一と事前ラベル付きトレーニングデータの必要性の排除を強調した。
論文 参考訳(メタデータ) (2024-06-26T10:44:02Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Neural Token Segmentation for High Token-Internal Complexity [7.569526565230962]
原文をワード単位に変換することは、NLPパイプラインにとって重要な前処理ステップである。
本稿では,文脈化トークン表現とチャレベルデコーディングを組み合わせたニューラルセグメンテーションモデルを提案する。
我々のモデルはヘブライ語とアラビア語の分節精度を最先端と比較して大幅に改善したことを示している。
論文 参考訳(メタデータ) (2022-03-21T10:07:17Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - A study of text representations in Hate Speech Detection [0.0]
ヘイトフル言語に対するEUと米国の現行の法律は、ヘイトスピーチ検出タスクとパイプラインに必要な自動ツールを導いている。
本研究では,Hate音声の自動検出タスクにおいて,複数の分類アルゴリズムと組み合わせた多種多様なテキスト表現手法の性能について検討する。
論文 参考訳(メタデータ) (2021-02-08T20:39:17Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。