論文の概要: Multilingual corpora for the study of new concepts in the social sciences and humanities:
- arxiv url: http://arxiv.org/abs/2512.07367v1
- Date: Mon, 08 Dec 2025 10:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.818945
- Title: Multilingual corpora for the study of new concepts in the social sciences and humanities:
- Title(参考訳): 社会科学と人文科学の新しい概念研究のための多言語コーパス
- Authors: Revekka Kyriakoglou, Anna Pappa,
- Abstract要約: 本稿では,人文科学と社会科学の新たな概念の研究を支援するために,多言語コーパスを構築するためのハイブリッド手法を提案する。
コーパスは,(1)企業ウェブサイトから自動的に抽出されたテキストコンテンツ,(2)文書基準(年,フォーマット,複製)に従って収集・フィルタリングされた年次報告,の2つの補完資料に依存している。
処理パイプラインは、自動言語検出、非関連コンテンツのフィルタリング、関連するセグメントの抽出、構造メタデータの強化を含む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article presents a hybrid methodology for building a multilingual corpus designed to support the study of emerging concepts in the humanities and social sciences (HSS), illustrated here through the case of ``non-technological innovation''. The corpus relies on two complementary sources: (1) textual content automatically extracted from company websites, cleaned for French and English, and (2) annual reports collected and automatically filtered according to documentary criteria (year, format, duplication). The processing pipeline includes automatic language detection, filtering of non-relevant content, extraction of relevant segments, and enrichment with structural metadata. From this initial corpus, a derived dataset in English is created for machine learning purposes. For each occurrence of a term from the expert lexicon, a contextual block of five sentences is extracted (two preceding and two following the sentence containing the term). Each occurrence is annotated with the thematic category associated with the term, enabling the construction of data suitable for supervised classification tasks. This approach results in a reproducible and extensible resource, suitable both for analyzing lexical variability around emerging concepts and for generating datasets dedicated to natural language processing applications.
- Abstract(参考訳): 本稿では,人文科学・社会科学(HSS)における新たな概念の研究を支援するために考案された多言語コーパス構築のためのハイブリッド手法について述べる。
コーパスは,(1) 企業ウェブサイトから自動的に抽出されたテキストコンテンツ,(2) 文書基準(年, 形式, 重複)に従って収集, フィルタリングされた年次報告, の2つの補完資料に依存している。
処理パイプラインは、自動言語検出、非関連コンテンツのフィルタリング、関連するセグメントの抽出、構造メタデータの強化を含む。
この初期コーパスから、英語で派生したデータセットが機械学習のために作成される。
専門家辞書からの項の発生毎に、5つの文の文脈ブロックを抽出する(この項を含む文の前2と後2と)。
各事象は、用語に関連するテーマカテゴリーに注釈付けされ、教師付き分類タスクに適したデータの構築を可能にする。
このアプローチは再現可能で拡張可能なリソースであり、新興概念に関する語彙変数の分析や自然言語処理アプリケーション専用のデータセットの生成に適している。
関連論文リスト
- Beyond Chunking: Discourse-Aware Hierarchical Retrieval for Long Document Question Answering [51.7493726399073]
本稿では,長文質問応答を改善するための対話型階層型フレームワークを提案する。
このフレームワークには3つの重要な革新がある: 長文の専門的な談話解析、LLMに基づく談話関係ノードの拡張、構造誘導階層検索である。
論文 参考訳(メタデータ) (2025-05-26T14:45:12Z) - Extracting domain-specific terms using contextual word embeddings [2.7941582470640784]
本稿では,用語抽出のための新しい機械学習手法を提案する。
従来の用語抽出システムの特徴と、文脈単語の埋め込みから派生した新しい文脈特徴を組み合わせる。
われわれのアプローチは、これまでの最先端よりもF1スコアの点で大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-24T16:06:35Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - ImPaKT: A Dataset for Open-Schema Knowledge Base Construction [10.073210304061966]
ImPaKTは、ショッピングドメイン(商品購入ガイド)におけるC4コーパスから約2500のテキストスニペットからなるオープンスキーマ情報抽出用データセットである。
本研究では,オープンソースUL2言語モデルをデータセットのサブセットに微調整し,製品購入ガイドのコーパスから含意関係を抽出し,その結果の予測を人為的に評価することで,このアプローチの能力を評価する。
論文 参考訳(メタデータ) (2022-12-21T05:02:49Z) - O-Dang! The Ontology of Dangerous Speech Messages [53.15616413153125]
O-Dang!:The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG)
O-Dang!は、Lingguistic Linked Open Dataコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたKGにまとめ、整理するように設計されている。
ゴールド・スタンダードとシングル・アノテータのラベルをKGにエンコードするモデルを提供する。
論文 参考訳(メタデータ) (2022-07-13T11:50:05Z) - NEWTS: A Corpus for News Topic-Focused Summarization [9.872518517174498]
本稿では,CNN/Dailymailデータセットに基づく最初の話題要約コーパスを提案する。
提案手法の有効性を検証し,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-05-31T10:01:38Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Topic-Centric Unsupervised Multi-Document Summarization of Scientific
and News Articles [3.0504782036247438]
本稿では,トピック中心のマルチドキュメント要約フレームワークを提案し,抽象的な要約を生成する。
提案アルゴリズムは,有能な言語単位選択とテキスト生成技術を開発することにより,抽象的な要約を生成する。
提案手法は,自動抽出評価指標を用いて評価した場合の最先端技術と一致し,人間の5つの評価指標の抽象的要約に優れる。
論文 参考訳(メタデータ) (2020-11-03T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。