論文の概要: Handling Open-Vocabulary Constructs in Formalizing Specifications: Retrieval-Augmented Parsing with Expert Knowledge
- arxiv url: http://arxiv.org/abs/2509.08808v1
- Date: Wed, 10 Sep 2025 17:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.536142
- Title: Handling Open-Vocabulary Constructs in Formalizing Specifications: Retrieval-Augmented Parsing with Expert Knowledge
- Title(参考訳): 仕様書の形式化におけるオープンボキャブラリ構成の扱い:専門知識を用いた検索型構文解析
- Authors: Mohammad Saqib Hasan, Sayontan Ghosh, Dhruv Verma, Geoff Kuenning, Erez Zadok, Scott A. Smolka, Niranjan Balasubramanian,
- Abstract要約: 我々は、自然言語(NL)仕様を形式言語(時間論理やコードなど)に変換する文脈において、OVC(Open-Vocabulary Constructs)の問題について研究する。
私たちのゴールは、モデルを再トレーニングすることなく、この推論タイムで専門家が提供する知識を将来の解析のために効果的に再利用することです。
本稿では,動的知識強化構文解析(DKAP)を提案する。入力文に加えて,モデルがキー値の語彙として(動的に成長する)専門家の知識を受信する。
- 参考スコア(独自算出の注目度): 13.693645514203636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of Open-Vocabulary Constructs(OVCs) -- ones not known beforehand -- in the context of converting natural language (NL) specifications into formal languages (e.g., temporal logic or code). Models fare poorly on OVCs due to a lack of necessary knowledge a priori. In such situations, a domain expert can provide correct constructs at inference time based on their preferences or domain knowledge. Our goal is to effectively reuse this inference-time, expert-provided knowledge for future parses without retraining the model. We present dynamic knowledge-augmented parsing(DKAP), where in addition to the input sentence, the model receives (dynamically growing) expert knowledge as a key-value lexicon that associates NL phrases with correct OVC constructs. We propose ROLex, a retrieval-augmented parsing approach that uses this lexicon. A retriever and a generator are trained to find and use the key-value store to produce the correct parse. A key challenge lies in curating data for this retrieval-augmented parser. We utilize synthetic data generation and the data augmentation techniques on annotated (NL sentence, FL statement) pairs to train the augmented parser. To improve training effectiveness, we propose multiple strategies to teach models to focus on the relevant subset of retrieved knowledge. Finally, we introduce a new evaluation paradigm modeled after the DKAP problem and simulate the scenario across three formalization tasks (NL2LTL, NL2Code, and NL2CMD). Our evaluations show that DKAP is a difficult challenge, and ROLex helps improve the performance of baseline models by using dynamic expert knowledge effectively.
- Abstract(参考訳): 我々は、自然言語(NL)仕様を形式言語(例えば、時間論理やコード)に変換する文脈において、OVC(Open-Vocabulary Constructs)の問題について検討する。
事前知識が欠如しているため、OVCのモデルは低調だ。
このような状況下では、ドメインエキスパートは、その好みやドメインの知識に基づいて、推論時に正しい構成を提供することができる。
私たちのゴールは、モデルを再トレーニングすることなく、この推論タイムで専門家が提供する知識を将来の解析のために効果的に再利用することです。
入力文に加えて,NLフレーズを正しいOVC構造に関連付けるキー値辞書として,モデルが専門家の知識を(動的に増大する)受信する動的知識拡張構文解析(DKAP)を提案する。
本稿では,このレキシコンを用いた検索拡張解析手法であるROLexを提案する。
レトリバーとジェネレータは、キー値ストアを見つけて使用するように訓練され、正しいパースを生成する。
重要な課題は、この検索拡張パーサーのデータをキュレートすることだ。
我々は、合成データ生成と、アノテーション付き(NL文、FL文)ペアのデータ拡張技術を利用して、拡張パーサを訓練する。
学習効率を向上させるために,検索した知識の関連するサブセットに焦点を合わせるモデルを教えるための複数の戦略を提案する。
最後に、DKAP問題に倣った新しい評価パラダイムを導入し、3つの形式化タスク(NL2LTL、NL2Code、NL2CMD)のシナリオをシミュレートする。
評価の結果,DKAPは難しい課題であり,ROLexは動的エキスパート知識を効果的に活用することで,ベースラインモデルの性能向上を支援する。
関連論文リスト
- Efficient Tuning of Large Language Models for Knowledge-Grounded Dialogue Generation [21.52726424882653]
KEDiTは、知識基底対話生成のための大規模言語モデルを微調整する効率的な方法である。
まず、検索した知識を学習可能なパラメータに圧縮するために情報ボトルネックを使用し、計算オーバーヘッドを最小限に抑えながら重要な情報を保持する。
ウィキペディアのウィザードと新しく構築されたPubMed-Dialogデータセットの実験結果は、KEDiTが文脈的に関連があり、情報的な応答を生成するのに優れていることを示している。
論文 参考訳(メタデータ) (2025-04-10T13:54:36Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - TRELM: Towards Robust and Efficient Pre-training for Knowledge-Enhanced Language Models [31.209774088374374]
本稿では,知識強化言語モデルのためのロバストかつ効率的な事前学習フレームワークであるTRELMを紹介する。
我々は、知識を3倍に注入するための堅牢なアプローチと、価値ある情報を取得するための知識強化されたメモリバンクを採用しています。
我々は,TRELMが事前学習時間を少なくとも50%削減し,知識探索タスクや複数の知識認識言語理解タスクにおいて,他のKEPLMよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-17T13:04:35Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - BRENT: Bidirectional Retrieval Enhanced Norwegian Transformer [1.911678487931003]
検索ベースの言語モデルは、質問応答タスクにますます採用されている。
我々はREALMフレームワークを適用し,ノルウェー初の検索モデルを開発した。
本研究では,このような学習により,抽出質問応答における読み手のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-04-19T13:40:47Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - BERTese: Learning to Speak to BERT [50.76152500085082]
本論文では,より良い知識抽出に向けて直接最適化されたパラフレーズクエリ"BERTese"に自動書き換える手法を提案する。
私たちのアプローチが競合するベースラインを上回ることを実証的に示し、複雑なパイプラインの必要性を回避します。
論文 参考訳(メタデータ) (2021-03-09T10:17:22Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。