論文の概要: From Semantic Roles to Opinion Roles: SRL Data Extraction for Multi-Task and Transfer Learning in Low-Resource ORL
- arxiv url: http://arxiv.org/abs/2511.08537v1
- Date: Wed, 12 Nov 2025 02:03:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.856765
- Title: From Semantic Roles to Opinion Roles: SRL Data Extraction for Multi-Task and Transfer Learning in Low-Resource ORL
- Title(参考訳): セマンティック・ロールからオピニオン・ロールへ:低リソースORLにおけるマルチタスクとトランスファー学習のためのSRLデータ抽出
- Authors: Amirmohammad Omidi Galdiani, Sepehr Rezaei Melal, Mohammad Norasteh, Arash Yousefi Jordehi, Seyed Abolghasem Mirroshandel,
- Abstract要約: 本報告では,OntoNotes 5.0コーパスのウォール・ストリート・ジャーナル(WSJ)部分から高品質なセマンティック・ロール・ラベル(SRL)データセットを構築する手法を提案する。
本研究では,述語句構造を表面テキストと整合させ,構文木ポインターをコヒーレントスパンに変換し,意味的忠実性を確保するために厳密なクリーニングを施した再現可能な抽出パイプラインを実装した。
得られたデータセットは、明確に定義されたAgens(ARG0)、Predicate(REL)、Patent(ARG1)ロールを持つ97,169のPredicate-argumentインスタンスで構成され、ORLのholder、Expression、Targetスキーマにマッピングされる。
- 参考スコア(独自算出の注目度): 3.2641459166493405
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This report presents a detailed methodology for constructing a high-quality Semantic Role Labeling (SRL) dataset from the Wall Street Journal (WSJ) portion of the OntoNotes 5.0 corpus and adapting it for Opinion Role Labeling (ORL) tasks. Leveraging the PropBank annotation framework, we implement a reproducible extraction pipeline that aligns predicate-argument structures with surface text, converts syntactic tree pointers to coherent spans, and applies rigorous cleaning to ensure semantic fidelity. The resulting dataset comprises 97,169 predicate-argument instances with clearly defined Agent (ARG0), Predicate (REL), and Patient (ARG1) roles, mapped to ORL's Holder, Expression, and Target schema. We provide a detailed account of our extraction algorithms, discontinuous argument handling, annotation corrections, and statistical analysis of the resulting dataset. This work offers a reusable resource for researchers aiming to leverage SRL for enhancing ORL, especially in low-resource opinion mining scenarios.
- Abstract(参考訳): 本稿では,OntoNotes 5.0コーパスのウォール・ストリート・ジャーナル(WSJ)から高品質なセマンティック・ロール・ラベル(SRL)データセットを構築し,オピニオン・ロール・ラベル(ORL)タスクに適用するための詳細な方法論を提案する。
PropBankのアノテーションフレームワークを利用することで、述語構文構造を表面テキストと整列させ、構文木ポインタをコヒーレントなスパンに変換し、セマンティックな忠実さを確保するために厳密なクリーニングを適用する再現可能な抽出パイプラインを実装します。
得られたデータセットは、明確に定義されたAgens(ARG0)、Predicate(REL)、Patent(ARG1)ロールを持つ97,169のPredicate-argumentインスタンスで構成され、ORLのholder、Expression、Targetスキーマにマッピングされる。
本稿では,抽出アルゴリズム,不連続な引数処理,アノテーション補正,および得られたデータセットの統計的解析について詳細な説明を行う。
この研究は、特に低リソースの意見採鉱シナリオにおいて、SRLを活用してORLを強化する研究者に再利用可能なリソースを提供する。
関連論文リスト
- Overcoming the Generalization Limits of SLM Finetuning for Shape-Based Extraction of Datatype and Object Properties [6.295923933999817]
小言語モデル(SLM)は、SHACL形状で案内されるRDFトリプルを抽出する際に、関係抽出(RE)を約束することを示す。
本稿では,完全なRDFグラフ抽出のためのデータ型とオブジェクト特性の両方を扱うSLMについて検討する。
論文 参考訳(メタデータ) (2025-11-05T12:16:51Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs [12.878608250420832]
Retrieval-augmented Generation (RAG)は、再活性化されたLarge Language Models (LLM)である。
長文グローバル要約のためのRAGを強化するために,$textitgraph of record$$(textbfGoR$)を提案する。
GoRには、$textitgraph Neural Network$と、セルフ教師付きモデルトレーニングのための、詳しく設計された$textitBERTScore$ベースの目的がある。
論文 参考訳(メタデータ) (2024-10-14T18:34:29Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - How Good are LLMs at Relation Extraction under Low-Resource Scenario? Comprehensive Evaluation [7.151108031568037]
本稿では,3地域(中央アジア,東南アジア,中東)の低リソース言語10言語(LRL)における低リソース関係抽出データセットを構築する。
コーパスは、有効な多言語機械翻訳を使用して、オリジナルの公開可能な英語REデータセット(NYT10、FewRel、CrossRE)を翻訳することで構築される。
次に、言語パープレキシティ(PPL)を使用して、翻訳されたデータセットから低品質データをフィルタリングする。
論文 参考訳(メタデータ) (2024-06-17T03:02:04Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Semantic Role Labeling as Syntactic Dependency Parsing [19.919191146167584]
3つの一般的な構文パターンは、PropBankスタイルのセマンティックロールラベルアノテーションの98%以上を占めている。
本稿では,SRLアノテーションを結合ラベルを通じて依存ツリー表現にまとめる変換方式を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。