論文の概要: Extracting Explainable Dates From Medical Images By Reverse-Engineering UNIX Timestamps
- arxiv url: http://arxiv.org/abs/2505.11451v2
- Date: Tue, 03 Jun 2025 10:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.588135
- Title: Extracting Explainable Dates From Medical Images By Reverse-Engineering UNIX Timestamps
- Title(参考訳): リバースエンジニアリングのUNIXタイムスタンプで医用画像から説明可能な日付を抽出する
- Authors: Lee Harris,
- Abstract要約: 正規表現は正規表現合成によって生成され、テキストの書き起こしにおいて複雑な日付と日付範囲を識別できることを示す。
そこで本研究では,複数の多点写像を逆エンジニアリングし,それらを正規表現合成器に入力することで決定論的論理を学習する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dates often contribute towards highly impactful medical decisions, but it is rarely clear how to extract this data. AI has only just begun to be used transcribe such documents, and common methods are either to trust that the output produced by a complex AI model, or to parse the text using regular expressions. Recent work has established that regular expressions are an explainable form of logic, but it is difficult to decompose these into the component parts that are required to construct precise UNIX timestamps. First, we test publicly-available regular expressions, and we found that these were unable to capture a significant number of our dates. Next, we manually created easily-decomposable regular expressions, and we found that these were able to detect the majority of real dates, but also a lot of sequences of text that look like dates. Finally, we used regular expression synthesis to automatically identify regular expressions from the reverse-engineered UNIX timestamps that we created. We find that regular expressions created by regular expression synthesis detect far fewer sequences of text that look like dates than those that were manually created, at the cost of a slight increase to the number of missed dates. Overall, our results show that regular expressions can be created through regular expression synthesis to identify complex dates and date ranges in text transcriptions. To our knowledge, our proposed way of learning deterministic logic by reverse-engineering several many-one mappings and feeding these into a regular expression synthesiser is a new approach.
- Abstract(参考訳): 日付は、しばしば非常に影響力のある医療上の決定に寄与するが、このデータを抽出する方法はめったに明らかではない。
AIは単にそのような文書の書き起こしに使われ始めたばかりであり、一般的な方法は複雑なAIモデルによって生成された出力を信頼するか、正規表現を使用してテキストを解析するかのいずれかである。
最近の研究は、正規表現が論理の説明可能な形式であることを確立しているが、これらをUNIXの正確なタイムスタンプを構築するのに必要な構成要素に分解することは困難である。
まず、公開可能な正規表現をテストし、これらの表現は、我々の日付のかなりの数を取得することができないことがわかった。
次に、手作業で簡単に分解可能な正規表現を作成し、実際の日付の大多数を検出できただけでなく、日付のように見えるテキストのシーケンスも多数検出できた。
最後に、正規表現合成を用いて、私たちが作成したリバースエンジニアリングされたUNIXタイムスタンプから正規表現を自動的に識別する。
正規表現合成によって生成される正規表現は、手作業で生成したテキストよりも日付に近いテキストのシーケンスをはるかに少なく検出する。
以上の結果から,正規表現は正規表現合成によって生成され,テキストの書き起こしにおける複雑な日付と日付範囲を識別できることがわかった。
そこで本研究では,複数の多点写像を逆エンジニアリングし,それらを正規表現合成器に入力することで決定論的論理を学習する手法を提案する。
関連論文リスト
- Is Reuse All You Need? A Systematic Comparison of Regular Expression Composition Strategies [5.503553586086489]
著者: コンポジションタスクは専用の機械を活用できるほどユニークなものなのでしょうか?
GitHubとRegExLibから抽出された新しいコンポジションタスクのデータセットを収集します。
本評価では,新しい計量を含む複数の次元を用いて,2つの合成手法との比較を行った。
論文 参考訳(メタデータ) (2025-03-26T14:25:27Z) - Handling Numeric Expressions in Automatic Speech Recognition [56.972851337263755]
数値表現の認識と形式化のためのケースドとエンド・ツー・エンドのアプローチを比較した。
その結果,適応型エンドツーエンドモデルでは,低レイテンシと推論コストの利点を生かして,競争性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-18T09:46:19Z) - Real-time Regular Expression Matching [65.268245109828]
本稿では,有限状態オートマトン,正規表現マッチング,パターン認識,指数的爆破問題について述べる。
本稿では,正規言語の複雑なクラスに対する指数的爆破問題に対する理論的およびハードウェア的解法を提案する。
論文 参考訳(メタデータ) (2023-08-20T09:25:40Z) - Linear-Time Modeling of Linguistic Structure: An Order-Theoretic
Perspective [97.57162770792182]
文字列内のトークンのペア間の関係をモデル化するタスクは、自然言語を理解する上で不可欠な部分である。
これらの徹底的な比較は避けられ、さらに、トークン間の関係を文字列上の部分順序としてキャストすることで、複雑さを線形に減らすことができる。
提案手法は,文字列中の各トークンの実際の数を並列に予測し,それに従ってトークンをソートすることで,文字列内のトークンの総順序を決定する。
論文 参考訳(メタデータ) (2023-05-24T11:47:35Z) - Attributable and Scalable Opinion Summarization [79.87892048285819]
我々は、頻繁なエンコーディングを復号することで抽象的な要約を生成し、同じ頻繁なエンコーディングに割り当てられた文を選択して抽出的な要約を生成する。
本手法は,要約プロセスの一部として要約を生成するために使用される文を同定するため,帰属的手法である。
なぜなら、アグリゲーションはトークンの長いシーケンスではなく、潜在空間で実行されるからである。
論文 参考訳(メタデータ) (2023-05-19T11:30:37Z) - Improving Structured Text Recognition with Regular Expression Biasing [13.801707647700727]
本研究では,ある形式に従う構造化テキストの認識の問題について検討する。
偏見の正規表現 (regexes) を指定することにより, 構造化テキストの認識精度を向上させることを提案する。
論文 参考訳(メタデータ) (2021-11-10T23:12:05Z) - FOREST: An Interactive Multi-tree Synthesizer for Regular Expressions [5.21480688623047]
デジタルフォームバリデーションのための正規表現シンセサイザーであるFORESTについて紹介する。
forestryは入力値の所望のパターンにマッチする正規表現を生成する。
また、与えられた正規表現のキャプチャ条件を合成する新しいSMTエンコーディングも提案する。
論文 参考訳(メタデータ) (2020-12-28T14:06:01Z) - Benchmarking Multimodal Regex Synthesis with Complex Structures [45.35689345004124]
自然言語から正規表現(regex)を生成する既存のデータセットは、複雑さに制限されている。
従来のものと異なる新しい合成データセットであるStructuredRegexを3つの側面で紹介する。
論文 参考訳(メタデータ) (2020-05-02T00:16:09Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。