論文の概要: From Semantic Roles to Opinion Roles: SRL Data Extraction for Multi-Task and Transfer Learning in Low-Resource ORL
- arxiv url: http://arxiv.org/abs/2511.08537v1
- Date: Wed, 12 Nov 2025 02:03:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.856765
- Title: From Semantic Roles to Opinion Roles: SRL Data Extraction for Multi-Task and Transfer Learning in Low-Resource ORL
- Title(参考訳): セマンティック・ロールからオピニオン・ロールへ:低リソースORLにおけるマルチタスクとトランスファー学習のためのSRLデータ抽出
- Authors: Amirmohammad Omidi Galdiani, Sepehr Rezaei Melal, Mohammad Norasteh, Arash Yousefi Jordehi, Seyed Abolghasem Mirroshandel,
- Abstract要約: 本報告では,OntoNotes 5.0コーパスのウォール・ストリート・ジャーナル(WSJ)部分から高品質なセマンティック・ロール・ラベル(SRL)データセットを構築する手法を提案する。
本研究では,述語句構造を表面テキストと整合させ,構文木ポインターをコヒーレントスパンに変換し,意味的忠実性を確保するために厳密なクリーニングを施した再現可能な抽出パイプラインを実装した。
得られたデータセットは、明確に定義されたAgens(ARG0)、Predicate(REL)、Patent(ARG1)ロールを持つ97,169のPredicate-argumentインスタンスで構成され、ORLのholder、Expression、Targetスキーマにマッピングされる。
- 参考スコア(独自算出の注目度): 3.2641459166493405
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This report presents a detailed methodology for constructing a high-quality Semantic Role Labeling (SRL) dataset from the Wall Street Journal (WSJ) portion of the OntoNotes 5.0 corpus and adapting it for Opinion Role Labeling (ORL) tasks. Leveraging the PropBank annotation framework, we implement a reproducible extraction pipeline that aligns predicate-argument structures with surface text, converts syntactic tree pointers to coherent spans, and applies rigorous cleaning to ensure semantic fidelity. The resulting dataset comprises 97,169 predicate-argument instances with clearly defined Agent (ARG0), Predicate (REL), and Patient (ARG1) roles, mapped to ORL's Holder, Expression, and Target schema. We provide a detailed account of our extraction algorithms, discontinuous argument handling, annotation corrections, and statistical analysis of the resulting dataset. This work offers a reusable resource for researchers aiming to leverage SRL for enhancing ORL, especially in low-resource opinion mining scenarios.
- Abstract(参考訳): 本稿では,OntoNotes 5.0コーパスのウォール・ストリート・ジャーナル(WSJ)から高品質なセマンティック・ロール・ラベル(SRL)データセットを構築し,オピニオン・ロール・ラベル(ORL)タスクに適用するための詳細な方法論を提案する。
PropBankのアノテーションフレームワークを利用することで、述語構文構造を表面テキストと整列させ、構文木ポインタをコヒーレントなスパンに変換し、セマンティックな忠実さを確保するために厳密なクリーニングを適用する再現可能な抽出パイプラインを実装します。
得られたデータセットは、明確に定義されたAgens(ARG0)、Predicate(REL)、Patent(ARG1)ロールを持つ97,169のPredicate-argumentインスタンスで構成され、ORLのholder、Expression、Targetスキーマにマッピングされる。
本稿では,抽出アルゴリズム,不連続な引数処理,アノテーション補正,および得られたデータセットの統計的解析について詳細な説明を行う。
この研究は、特に低リソースの意見採鉱シナリオにおいて、SRLを活用してORLを強化する研究者に再利用可能なリソースを提供する。
関連論文リスト
- ReFuGe: Feature Generation for Prediction Tasks on Relational Databases with LLM Agents [33.930224200799366]
ReFuGeはRDBの予測機能を生成するためのエージェントフレームワークである。
パフォーマンスが収束するまで、反復的なフィードバックループ内で動作します。
RDBベンチマークの実験では、ReFuGeは様々なRDB予測タスクのパフォーマンスを大幅に改善している。
論文 参考訳(メタデータ) (2026-01-25T08:02:29Z) - Learning to Refine: An Agentic RL Approach for Iterative SPARQL Query Construction [0.18907108368038208]
現在のメソッドでは、リアルタイム実行フィードバックに基づいてクエリを動的にデバッグするために必要なアダプティブポリシーが欠如している。
本稿では,LLMが繰り返しSPARQL構築のシーケンシャルなプロセスに対してレジリエントなポリシーを学習する,新しいエージェント・フレームワークを提案する。
結果駆動型強化学習(GRPO)によってのみ訓練されたコンパクトな3B-パラメータモデルが,このタスクの効果的なポリシを学習可能であることを示す。
論文 参考訳(メタデータ) (2025-11-14T08:44:58Z) - Overcoming the Generalization Limits of SLM Finetuning for Shape-Based Extraction of Datatype and Object Properties [6.295923933999817]
小言語モデル(SLM)は、SHACL形状で案内されるRDFトリプルを抽出する際に、関係抽出(RE)を約束することを示す。
本稿では,完全なRDFグラフ抽出のためのデータ型とオブジェクト特性の両方を扱うSLMについて検討する。
論文 参考訳(メタデータ) (2025-11-05T12:16:51Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs [12.878608250420832]
Retrieval-augmented Generation (RAG)は、再活性化されたLarge Language Models (LLM)である。
長文グローバル要約のためのRAGを強化するために,$textitgraph of record$$(textbfGoR$)を提案する。
GoRには、$textitgraph Neural Network$と、セルフ教師付きモデルトレーニングのための、詳しく設計された$textitBERTScore$ベースの目的がある。
論文 参考訳(メタデータ) (2024-10-14T18:34:29Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - How Good are LLMs at Relation Extraction under Low-Resource Scenario? Comprehensive Evaluation [7.151108031568037]
本稿では,3地域(中央アジア,東南アジア,中東)の低リソース言語10言語(LRL)における低リソース関係抽出データセットを構築する。
コーパスは、有効な多言語機械翻訳を使用して、オリジナルの公開可能な英語REデータセット(NYT10、FewRel、CrossRE)を翻訳することで構築される。
次に、言語パープレキシティ(PPL)を使用して、翻訳されたデータセットから低品質データをフィルタリングする。
論文 参考訳(メタデータ) (2024-06-17T03:02:04Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Semantic Role Labeling Meets Definition Modeling: Using Natural Language
to Describe Predicate-Argument Structures [104.32063681736349]
本稿では,離散ラベルの代わりに自然言語定義を用いて述語-代名詞構造を記述する手法を提案する。
PropBankスタイルおよびFrameNetスタイル、依存性ベースおよびスパンベースSRLに関する実験と分析は、解釈可能な出力を持つフレキシブルモデルが必ずしも性能を犠牲にしないことを示す。
論文 参考訳(メタデータ) (2022-12-02T11:19:16Z) - Semantic Role Labeling as Syntactic Dependency Parsing [19.919191146167584]
3つの一般的な構文パターンは、PropBankスタイルのセマンティックロールラベルアノテーションの98%以上を占めている。
本稿では,SRLアノテーションを結合ラベルを通じて依存ツリー表現にまとめる変換方式を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。