論文の概要: Rule-Based Approaches to Atomic Sentence Extraction
- arxiv url: http://arxiv.org/abs/2601.00506v1
- Date: Thu, 01 Jan 2026 23:19:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.482203
- Title: Rule-Based Approaches to Atomic Sentence Extraction
- Title(参考訳): 規則に基づく原子文抽出へのアプローチ
- Authors: Lineesha Kamana, Akshita Ananda Subramanian, Mehuli Ghosh, Suman Saha,
- Abstract要約: 原子文抽出は、情報検索、質問応答、自動推論システムの性能を向上させる。
従来の作業では、"split-and-rephrase"タスクが形式化され、評価基準が確立され、機械学習アプローチによる抽出精度が向上した。
本研究では, 相対節, 副詞節, 調整パターン, 受動的構成を含む複雑な文構造が, ルールベース抽出の性能に与える影響を解析した。
- 参考スコア(独自算出の注目度): 1.167405291587978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language often combines multiple ideas into complex sentences. Atomic sentence extraction, the task of decomposing complex sentences into simpler sentences that each express a single idea, improves performance in information retrieval, question answering, and automated reasoning systems. Previous work has formalized the "split-and-rephrase" task and established evaluation metrics, and machine learning approaches using large language models have improved extraction accuracy. However, these methods lack interpretability and provide limited insight into which linguistic structures cause extraction failures. Although some studies have explored dependency-based extraction of subject-verb-object triples and clauses, no principled analysis has examined which specific clause structures and dependencies lead to extraction difficulties. This study addresses this gap by analyzing how complex sentence structures, including relative clauses, adverbial clauses, coordination patterns, and passive constructions, affect the performance of rule-based atomic sentence extraction. Using the WikiSplit dataset, we implemented dependency-based extraction rules in spaCy, generated 100 gold=standard atomic sentence sets, and evaluated performance using ROUGE and BERTScore. The system achieved ROUGE-1 F1 = 0.6714, ROUGE-2 F1 = 0.478, ROUGE-L F1 = 0.650, and BERTScore F1 = 0.5898, indicating moderate-to-high lexical, structural, and semantic alignment. Challenging structures included relative clauses, appositions, coordinated predicates, adverbial clauses, and passive constructions. Overall, rule-based extraction is reasonably accurate but sensitive to syntactic complexity.
- Abstract(参考訳): 自然言語はしばしば複数の考えを複雑な文に結合する。
アトミック文抽出(Atomic sentence extract)は、複雑な文を単純な文に分解し、それぞれが単一のアイデアを表現し、情報検索、質問応答、自動推論システムのパフォーマンスを向上させるタスクである。
従来の作業では、"split-and-rephrase"タスクを形式化し、評価基準を確立し、大規模言語モデルを用いた機械学習アプローチにより、抽出精度が向上した。
しかし、これらの手法は解釈可能性に欠けており、どの言語構造が抽出失敗の原因となるのかについての限られた洞察を与えている。
係り受けに基づく三重項・三重項・三重項の抽出について検討する研究もあるが、特定の節構造や依存関係が抽出困難の原因となるかは、原則的な分析は行われていない。
本研究では, 相対節, 副詞節, 調整パターン, 受動的構成を含む複雑な文構造が, 規則に基づく原子文抽出の性能に与える影響を解析することによって, このギャップを解消する。
WikiSplitデータセットを用いて、spurCyで依存性ベースの抽出ルールを実装し、100金=標準原子文セットを生成し、ROUGEとBERTScoreを用いて性能評価を行った。
システムはROUGE-1 F1 = 0.6714、ROUGE-2 F1 = 0.478、ROUGE-L F1 = 0.650、BERTScore F1 = 0.5898を達成した。
混成構造には、相対的な節、断定、調整された述語、副詞節、受動的構成が含まれていた。
全体として、ルールベースの抽出は合理的に正確であるが、構文的な複雑さに敏感である。
関連論文リスト
- Make Compound Sentences Simple to Analyze: Learning to Split Sentences for Aspect-based Sentiment Analysis [9.614424658292277]
Aspect Term Oriented Sentence Splitter (ATOSS) を提案する。
プラグアンドプレイモジュールとして,ABSAモデルのパラメータを保持するとともに,入力文中の本質的な意図を識別しやすくする。
論文 参考訳(メタデータ) (2024-10-03T08:27:59Z) - SHINE: Saliency-aware HIerarchical NEgative Ranking for Compositional Temporal Grounding [52.98133831401225]
時間的グラウンドディング(英: Temporal grounding、ビデオモーメント検索(英語版))は、所定のクエリ文に対応するビデオセグメントを特定することを目的としている。
本稿では, GPT-3.5-Turbo を用いた負のクエリ構築のための大規模言語モデル駆動手法を提案する。
本稿では,ビデオと階層的負のクエリ間の多粒度意味的関係を学習するモデルを提案する。
論文 参考訳(メタデータ) (2024-07-06T16:08:17Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Clustering and Network Analysis for the Embedding Spaces of Sentences
and Sub-Sentences [69.3939291118954]
本稿では,文とサブ文の埋め込みを対象とする包括的クラスタリングとネットワーク解析について検討する。
その結果,1つの手法が最もクラスタリング可能な埋め込みを生成することがわかった。
一般に、スパン部分文の埋め込みは、原文よりもクラスタリング特性が優れている。
論文 参考訳(メタデータ) (2021-10-02T00:47:35Z) - ABCD: A Graph Framework to Convert Complex Sentences to a Covering Set
of Simple Sentences [7.639576741566091]
本稿では,各複雑な文を,ソースのテンション付き節から派生した単純な文に分解するタスクを提案する。
私たちのニューラルモデルは、単語の隣接性と文法的依存関係を組み合わせたグラフのアクセプション、ブレーク、コピー、ドロップの各要素を学びます。
複雑な文分解の訓練と評価を目的とした新しいデータセットであるDeSSEを紹介する。
論文 参考訳(メタデータ) (2021-06-22T19:31:28Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。