論文の概要: Arce: Augmented Roberta with Contextualized Elucidations for Ner in Automated Rule Checking
- arxiv url: http://arxiv.org/abs/2508.07286v1
- Date: Sun, 10 Aug 2025 10:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.789677
- Title: Arce: Augmented Roberta with Contextualized Elucidations for Ner in Automated Rule Checking
- Title(参考訳): Arce: 自動ルールチェックにおけるNerのためのコンテキスト型エミュケーションを備えたAugmented Roberta
- Authors: Jian Chen, Jinbao Tian, Yankui Li, Zhou Li,
- Abstract要約: ARCE(Augmented RoBERTa with contextualized elucidations)は、この生成プロセスを体系的に探索し最適化する新しいアプローチである。
ARCEはベンチマークAECデータセットに新たな最先端技術を確立し、マクロF1スコアは77.20%に達した。
シンプルで説明に基づく知識は、このタスクの複雑なロールベースの論理よりも驚くほど効果的であることが証明されます。
- 参考スコア(独自算出の注目度): 5.783497520591236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate information extraction from specialized texts is a critical challenge, particularly for named entity recognition (NER) in the architecture, engineering, and construction (AEC) domain to support automated rule checking (ARC). The performance of standard pre-trained models is often constrained by the domain gap, as they struggle to interpret the specialized terminology and complex relational contexts inherent in AEC texts. Although this issue can be mitigated by further pre-training on large, human-curated domain corpora, as exemplified by methods like ARCBERT, this approach is both labor-intensive and cost-prohibitive. Consequently, leveraging large language models (LLMs) for automated knowledge generation has emerged as a promising alternative. However, the optimal strategy for generating knowledge that can genuinely enhance smaller, efficient models remains an open question. To address this, we propose ARCE (augmented RoBERTa with contextualized elucidations), a novel approach that systematically explores and optimizes this generation process. ARCE employs an LLM to first generate a corpus of simple, direct explanations, which we term Cote, and then uses this corpus to incrementally pre-train a RoBERTa model prior to its fine-tuning on the downstream task. Our extensive experiments show that ARCE establishes a new state-of-the-art on a benchmark AEC dataset, achieving a Macro-F1 score of 77.20%. This result also reveals a key finding: simple, explanation-based knowledge proves surprisingly more effective than complex, role-based rationales for this task. The code is publicly available at:https://github.com/nxcc-lab/ARCE.
- Abstract(参考訳): 特に、自動ルールチェック(ARC)をサポートするアーキテクチャ、エンジニアリング、建設(AEC)ドメインにおける名前付きエンティティ認識(NER)において、特殊テキストからの正確な情報抽出は重要な課題である。
標準的な事前学習モデルの性能は、AECテキストに固有の専門用語や複雑な関係コンテキストの解釈に苦慮しているため、ドメインギャップによって制約されることが多い。
この問題は、ARCBERTのような方法が示すように、大規模で人為的なドメインコーパスの事前訓練によって緩和することができるが、このアプローチは労働集約的かつコスト抑制的である。
その結果,大規模言語モデル(LLM)を自動知識生成に活用することが,有望な代替手段として浮上した。
しかし、より小型で効率的なモデルを真に強化できる知識を生成するための最適な戦略は、未解決の問題である。
そこで我々は,この生成過程を体系的に探索し最適化する新しいアプローチであるARCE(Augmented RoBERTa with contextualized elucidations)を提案する。
ARCEはまず、簡単な直接説明のコーパスを生成するためにLLMを使用し、それをCoteと呼び、次にこのコーパスを使用して、下流タスクの微調整の前にRoBERTaモデルを漸進的に事前訓練する。
我々の広範な実験は、ARCEがベンチマークAECデータセットに新しい最先端技術を確立し、マクロF1スコアが77.20%に達することを示している。
シンプルで説明に基づく知識は、このタスクの複雑なロールベースの論理よりも驚くほど効果的であることが証明されます。
コードは、https://github.com/nxcc-lab/ARCE.comで公開されている。
関連論文リスト
- Tree-Based Text Retrieval via Hierarchical Clustering in RAGFrameworks: Application on Taiwanese Regulations [0.0]
階層的なクラスタリングに基づく検索手法を提案する。
本手法は,意味的関連コンテンツを適応的に選択しながら,システム応答の精度と関連性を維持する。
我々のフレームワークは実装が簡単で、既存のRAGパイプラインと簡単に統合できます。
論文 参考訳(メタデータ) (2025-06-16T15:34:29Z) - GenKI: Enhancing Open-Domain Question Answering with Knowledge Integration and Controllable Generation in Large Language Models [75.25348392263676]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:18:33Z) - Generalising from Self-Produced Data: Model Training Beyond Human Constraints [0.0]
本稿では,AIモデルが新たな知識を自律的に生成し,検証する新しい枠組みを提案する。
このアプローチの中心は、人間のベンチマークを必要とせずに学習をガイドする、無制限で使い捨ての数値報酬である。
論文 参考訳(メタデータ) (2025-04-07T03:48:02Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Extract, Define, Canonicalize: An LLM-based Framework for Knowledge Graph Construction [12.455647753787442]
抽出・デファイン・カノニケーズ(EDC)という3相フレームワークを提案する。
EDCはフレキシブルで、事前に定義されたターゲットスキーマが利用可能で、そうでない場合に適用される。
EDCがパラメータチューニングなしで高品質な三重項を抽出できることを実証する。
論文 参考訳(メタデータ) (2024-04-05T02:53:51Z) - ProgGen: Generating Named Entity Recognition Datasets Step-by-step with Self-Reflexive Large Language Models [25.68491572293656]
大規模言語モデルは、名前付きエンティティ認識のような構造化された知識抽出タスクにおいて不足する。
本稿では,より優れたNERデータセットを生成するため,LCMを質素なNER能力で活用するための革新的で費用効率のよい戦略について検討する。
論文 参考訳(メタデータ) (2024-03-17T06:12:43Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain Question Answering [115.72130322143275]
REAR(Relevance-Aware Retrieval-augmented approach for open-domain Question answering, QA)
我々は,特殊な設計のアセスメントモジュールを組み込むことで,LLMベースのRAGシステムのための新しいアーキテクチャを開発する。
オープンドメインの4つのQAタスクの実験では、REARは以前の競争力のあるRAGアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。