論文の概要: Verifiable Natural Language to Linear Temporal Logic Translation: A Benchmark Dataset and Evaluation Suite
- arxiv url: http://arxiv.org/abs/2507.00877v1
- Date: Tue, 01 Jul 2025 15:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.709994
- Title: Verifiable Natural Language to Linear Temporal Logic Translation: A Benchmark Dataset and Evaluation Suite
- Title(参考訳): 線形時間論理変換への検証可能な自然言語:ベンチマークデータセットと評価スイート
- Authors: William H English, Chase Walker, Dominic Simon, Sumit Kumar Jha, Rickard Ewetz,
- Abstract要約: 時相論理(TL)翻訳システムに対する最先端自然言語(NL)の実証評価は,既存のベンチマークにおいてほぼ完全な性能を示す。
本稿では,自動NL-to-LTL翻訳の検証と妥当性を評価する統一ベンチマークであるVerifiable Linear Temporal Logic Benchmark (VLTL-Bench)を紹介する。
- 参考スコア(独自算出の注目度): 8.325455397285873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empirical evaluation of state-of-the-art natural-language (NL) to temporal-logic (TL) translation systems reveals near-perfect performance on existing benchmarks. However, current studies measure only the accuracy of the translation of NL logic into formal TL, ignoring a system's capacity to ground atomic propositions into new scenarios or environments. This is a critical feature, necessary for the verification of resulting formulas in a concrete state space. Consequently, most NL-to-TL translation frameworks propose their own bespoke dataset in which the correct grounding is known a-priori, inflating performance metrics and neglecting the need for extensible, domain-general systems. In this paper, we introduce the Verifiable Linear Temporal Logic Benchmark ( VLTL-Bench), a unifying benchmark that measures verification and verifiability of automated NL-to-LTL translation. The dataset consists of three unique state spaces and thousands of diverse natural language specifications and corresponding formal specifications in temporal logic. Moreover, the benchmark contains sample traces to validate the temporal logic expressions. While the benchmark directly supports end-to-end evaluation, we observe that many frameworks decompose the process into i) lifting, ii) grounding, iii) translation, and iv) verification. The benchmark provides ground truths after each of these steps to enable researches to improve and evaluate different substeps of the overall problem. To encourage methodologically sound advances in verifiable NL-to-LTL translation approaches, we release VLTL-Bench here: https://www.kaggle.com/datasets/dubascudes/vltl bench.
- Abstract(参考訳): 時相論理(TL)翻訳システムに対する最先端自然言語(NL)の実証評価は,既存のベンチマークにおいてほぼ完全な性能を示す。
しかし、現在の研究では、NL論理の形式的なTLへの変換の正確さのみを測定し、新しいシナリオや環境に原子命題を基礎付ける能力を無視している。
これは、具体的な状態空間における結果の公式の検証に必要な重要な特徴である。
したがって、ほとんどのNL-to-TL翻訳フレームワークは、正しい基底がa-prioriとして知られ、パフォーマンス指標を膨らませ、拡張可能なドメイン汎用システムの必要性を無視した独自のbespokeデータセットを提案する。
本稿では,自動NL-to-LTL翻訳の検証と妥当性を評価する統一ベンチマークであるVerifiable Linear Temporal Logic Benchmark (VLTL-Bench)を紹介する。
データセットは3つのユニークな状態空間と何千もの多様な自然言語仕様と、時間論理における対応する形式仕様で構成されている。
さらに、ベンチマークには時間論理式を検証するためのサンプルトレースが含まれている。
ベンチマークはエンドツーエンドの評価を直接サポートするが、多くのフレームワークがプロセスを分解しているのを観察する。
lifting (複数形 liftings)
ii) 接地, 接地
三 翻訳、及び
iv) 検証。
このベンチマークは、これらのステップの後に基礎的な真実を提供し、研究が全体的な問題の様々な下位ステップを改善し、評価できるようにする。
検証可能なNL-to-LTL翻訳手法の方法論的改良を促進するため,VLTL-Benchを以下にリリースする。
関連論文リスト
- PARALLELPROMPT: Extracting Parallelism from Large Language Model Queries [16.40921376558516]
本稿では,自然ユーザプロンプトにおけるクエリ内並列性を測定する最初のベンチマークであるPARALLELPROMPTを紹介する。
我々のデータセットは、パブリックなLLMチャットログから37,000以上の実世界のプロンプトで構成されています。
並列戦略とシリアル戦略をベンチマークし、レイテンシ、構造的忠実度、セマンティック忠実度を計測する実行スイートを提供する。
論文 参考訳(メタデータ) (2025-06-23T15:05:54Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - CoT-TL: Low-Resource Temporal Knowledge Representation of Planning Instructions Using Chain-of-Thought Reasoning [0.0]
CoT-TLは、自然言語仕様を表現に変換するためのデータ効率のよいインコンテキスト学習フレームワークである。
CoT-TLは、ローデータシナリオで3つの多様なデータセット間で最先端の精度を達成する。
論文 参考訳(メタデータ) (2024-10-21T17:10:43Z) - NLPre: a revised approach towards language-centric benchmarking of Natural Language Preprocessing systems [2.141587359797428]
規則に基づく形態解析や辞書を頼りに、新しい解を十分に整合した前処理ツールキットと比較することは困難である。
GLUEベンチマークにインスパイアされたこの言語中心ベンチマークシステムは、複数のNLPreツールの包括的な評価を可能にする。
プロトタイプアプリケーションはポーランド語用に設定されており、完全に組み立てられたNLPre-PLベンチマークと統合されている。
論文 参考訳(メタデータ) (2024-03-07T14:07:00Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Logical Natural Language Generation from Open-Domain Tables [107.04385677577862]
本稿では,その事実に関連付けられた自然言語文をモデルで生成するタスクを提案する。
提案した論理的 NLG 問題の研究を容易にするために,幅広い論理的・記号的推論を特徴とする既存の TabFact データセットcitechen 2019tabfact を用いる。
新しいタスクは、シーケンス順序と論理順序のミスマッチのため、既存のモノトニック生成フレームワークに課題をもたらす。
論文 参考訳(メタデータ) (2020-04-22T06:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。