論文の概要: TEN: Table Explicitization, Neurosymbolically
- arxiv url: http://arxiv.org/abs/2508.09324v1
- Date: Tue, 12 Aug 2025 20:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.683528
- Title: TEN: Table Explicitization, Neurosymbolically
- Title(参考訳): TEN: 表の明示化, ニューロシンボリック
- Authors: Nikita Mehrotra, Aayush Kumar, Sumit Gulwani, Arjun Radhakrishna, Ashish Tiwari,
- Abstract要約: 本稿では,テキスト入力からデータを取り出すためのニューロシンボリックアプローチであるTENを提案する。
我々の実験では、TENは複数のデータセットやメトリクスで純粋にニューラルネットワークを著しく上回ります。
21人の被験者による調査では、TENのテーブルの精度がかなり高いことが確認された。
- 参考スコア(独自算出の注目度): 13.178005058859583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a neurosymbolic approach, TEN, for extracting tabular data from semistructured input text. This task is particularly challenging for text input that does not use special delimiters consistently to separate columns and rows. Purely neural approaches perform poorly due to hallucinations and their inability to enforce hard constraints. TEN uses Structural Decomposition prompting - a specialized chain-of-thought prompting approach - on a large language model (LLM) to generate an initial table, and thereafter uses a symbolic checker to evaluate not only the well-formedness of that table, but also detect cases of hallucinations or forgetting. The output of the symbolic checker is processed by a critique-LLM to generate guidance for fixing the table, which is presented to the original LLM in a self-debug loop. Our extensive experiments demonstrate that TEN significantly outperforms purely neural baselines across multiple datasets and metrics, achieving significantly higher exact match accuracy and substantially reduced hallucination rates. A 21-participant user study further confirms that TEN's tables are rated significantly more accurate (mean score: 5.0 vs 4.3; p = 0.021), and are consistently preferred for ease of verification and correction, with participants favoring our method in over 60% of the cases.
- Abstract(参考訳): 半構造化入力テキストから表層データを抽出するための神経象徴的アプローチであるTENを提案する。
このタスクは、カラムと行を分離するために特別なデリミタを一貫して使用しないテキスト入力では特に困難である。
純粋に神経的なアプローチは、幻覚とハード制約を強制できないために、うまく機能しない。
TENは、構造化分解プロンプト(Structure Decomposition prompting)、すなわち、大きな言語モデル(LLM)で初期テーブルを生成し、その後、シンボリックチェッカーを使用して、そのテーブルの良好な形を評価するだけでなく、幻覚や忘れのケースを検出する。
シンボリックチェッカーの出力は、批判−LLMにより処理され、自己デバッグループで元のLCMに提示されるテーブルの修正のためのガイダンスを生成する。
我々の広範な実験により、TENは複数のデータセットとメトリクスで純粋に神経ベースラインを著しく上回り、正確なマッチング精度と幻覚率を大幅に低下させることが示された。
21人の被験者による調査では、TENのテーブルの精度が有意に高く(平均スコア:5.0対4.3; p = 0.021)、検証と修正の容易さが常に好まれており、被験者は60%以上で私たちの方法を好む。
関連論文リスト
- Adverse Event Extraction from Discharge Summaries: A New Dataset, Annotation Scheme, and Initial Findings [1.9036581654832787]
高齢者の退院サマリーからの逆イベント(AE)抽出のための手動注釈コーパスを提案する。
このデータセットは、フォール、デリリウム、頭蓋内出血など14の臨床的に重要なAEsを含む。
3つのアノテーションの粒度にまたがってFrairNLPを用いて複数のモデルを評価する。
論文 参考訳(メタデータ) (2025-06-17T18:13:40Z) - TableDreamer: Progressive and Weakness-guided Data Synthesis from Scratch for Table Instruction Tuning [18.178908245791582]
TableDreamerは、テーブルインストラクションチューニングのための、プログレッシブで弱いガイド付きデータ合成フレームワークである。
Llama3.1-8B-インストラクトの平均精度は11.62%(49.07%から60.69%)、合成データは27K GPT-4oである。
これは、より多くのトレーニングデータを使用する最先端のデータ合成ベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-06-10T09:57:59Z) - GliLem: Leveraging GliNER for Contextualized Lemmatization in Estonian [0.21485350418225246]
GliLemはエストニア人のための新しいハイブリッド補題システムである。
本稿では,事前学習したGliNERモデルの柔軟性を活用し,Vabamorfの補間精度を向上させる。
論文 参考訳(メタデータ) (2024-12-29T22:02:00Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - LNN-EL: A Neuro-Symbolic Approach to Short-text Entity Linking [62.634516517844496]
本稿では,解釈可能なルールとニューラルネットワークの性能を併用したニューラルシンボリックアプローチであるLNN-ELを提案する。
ルールの使用に制約があるにもかかわらず、LNN-ELはSotAのブラックボックスニューラルアプローチと競合する。
論文 参考訳(メタデータ) (2021-06-17T20:22:45Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z) - DeepEnroll: Patient-Trial Matching with Deep Embedding and Entailment
Prediction [67.91606509226132]
臨床試験は医薬品開発に不可欠であるが、高価で不正確で不十分な患者募集に苦しむことが多い。
DeepEnrollは、入力基準(タブラリデータ)を一致する推論のための共有潜在空間に共同でエンコードする、クロスモーダル推論学習モデルである。
論文 参考訳(メタデータ) (2020-01-22T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。