論文の概要: Trace Reconstruction with Language Models
- arxiv url: http://arxiv.org/abs/2507.12927v1
- Date: Thu, 17 Jul 2025 09:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.423345
- Title: Trace Reconstruction with Language Models
- Title(参考訳): 言語モデルを用いたトレース再構成
- Authors: Franziska Weindel, Michael Girsch, Reinhard Heckel,
- Abstract要約: 本稿では,トレース復元のための学習言語モデルであるTReconLMを提案する。
我々は、合成データに基づく言語モデルと実世界のデータに基づく微調整を事前訓練し、技術固有のエラーパターンに適応する。
TReconLMは、先進的なディープラーニングアプローチを含む最先端のトレース再構築アルゴリズムより優れている。
- 参考スコア(独自算出の注目度): 18.61974847244797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The general trace reconstruction problem seeks to recover an original sequence from its noisy copies independently corrupted by deletions, insertions, and substitutions. This problem arises in applications such as DNA data storage, a promising storage medium due to its high information density and longevity. However, errors introduced during DNA synthesis, storage, and sequencing require correction through algorithms and codes, with trace reconstruction often used as part of the data retrieval process. In this work, we propose TReconLM, which leverages language models trained on next-token prediction for trace reconstruction. We pretrain language models on synthetic data and fine-tune on real-world data to adapt to technology-specific error patterns. TReconLM outperforms state-of-the-art trace reconstruction algorithms, including prior deep learning approaches, recovering a substantially higher fraction of sequences without error.
- Abstract(参考訳): 一般的なトレース再構成問題は、削除、挿入、置換によって独立に破損したノイズの多いコピーから元のシーケンスを復元しようとするものである。
この問題は、高い情報密度と長寿命のため、有望な記憶媒体であるDNAデータストレージのようなアプリケーションで発生する。
しかし、DNA合成、保存、シークエンシングの際に導入されたエラーは、アルゴリズムやコードによる修正が必要であり、トレース再構成はしばしばデータ検索プロセスの一部として使用される。
本研究では,TReconLMを提案する。このTReconLMは,トレース復元のために学習した言語モデルを利用する。
我々は、合成データに基づく言語モデルと実世界のデータに基づく微調整を事前訓練し、技術固有のエラーパターンに適応する。
TReconLMは、先進的なディープラーニングアプローチを含む最先端のトレース再構成アルゴリズムよりも優れており、エラーのない配列のかなりの割合を復元する。
関連論文リスト
- Under-Sampled High-Dimensional Data Recovery via Symbiotic Multi-Prior Tensor Reconstruction [10.666965599523754]
本研究は,データ固有の構造を利用するために,複数の先行情報を統合したテンソル再構成手法を提案する。
具体的には、再構成されたデータの低ランクな制約を強制するために学習可能な分解と、平滑化と復調のための事前訓練された畳み込みニューラルネットワークと、ブロックマッチングと3Dフィルタリング正規化を組み合わせる。
カラー画像、ハイパースペクトル画像、グレースケールビデオデータセットの実験は、極端な場合において、我々の手法の優位性を実証している。
論文 参考訳(メタデータ) (2025-04-08T12:55:18Z) - Re-Visible Dual-Domain Self-Supervised Deep Unfolding Network for MRI Reconstruction [48.30341580103962]
本稿では、これらの問題に対処するために、新しい再視覚的二重ドメイン自己教師型深層展開ネットワークを提案する。
エンド・ツー・エンドの再構築を実現するために,シャンブルとポック・プロキシ・ポイント・アルゴリズム(DUN-CP-PPA)に基づく深層展開ネットワークを設計する。
高速MRIおよびIXIデータセットを用いて行った実験により,本手法は再建性能において最先端の手法よりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2025-01-07T12:29:32Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - Making Reconstruction-based Method Great Again for Video Anomaly
Detection [64.19326819088563]
ビデオの異常検出は重要な問題だが、難しい問題だ。
既存の再構成に基づく手法は、昔ながらの畳み込みオートエンコーダに依存している。
連続フレーム再構築のための新しいオートエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-28T01:57:57Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Gait Cycle Reconstruction and Human Identification from Occluded
Sequences [2.198430261120653]
我々は,歩行認識を行う前に,隠蔽されたフレームを入力シーケンスで再構築する有効なニューラルネットワークモデルを提案する。
我々はLSTMネットワークを用いて,前向きと後向きの両方から隠蔽フレームの埋め込みを予測する。
LSTMは平均二乗損失を最小限に抑えるために訓練されるが、核融合ネットワークは、接地構造と再構成されたサンプルの間の画素単位のクロスエントロピー損失を最適化するために訓練される。
論文 参考訳(メタデータ) (2022-06-20T16:04:31Z) - Single-Read Reconstruction for DNA Data Storage Using Transformers [0.0]
エンコーダ・デコーダ・トランスフォーマアーキテクチャを用いたDNAベースのデータストレージのためのシングルリード再構成手法を提案する。
本モデルでは,DNA鎖の1つの読み取りから元のデータを再構成する際の誤り率を低くする。
これは、DNAベースのストレージにおけるシングルリード再構築にディープラーニングモデルを使用した最初のデモンストレーションである。
論文 参考訳(メタデータ) (2021-09-12T10:01:59Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - Empirical Error Modeling Improves Robustness of Noisy Neural Sequence
Labeling [26.27504889360246]
本稿では,誤りのないテキストから誤文への変換を訓練したシーケンス・ツー・シーケンスモデルを用いた経験的誤り生成手法を提案する。
テキスト入力が不完全である場合にさらに悪化するデータ空間の問題に対処するため,ノイズの多い言語モデルによる埋め込みを学習した。
提案手法は, 誤り系列ラベリングデータセットのベースラインノイズ発生と誤り訂正技術より優れていた。
論文 参考訳(メタデータ) (2021-05-25T12:15:45Z) - Reconstruct Anomaly to Normal: Adversarial Learned and Latent
Vector-constrained Autoencoder for Time-series Anomaly Detection [3.727524403726822]
時系列における異常検出は広く研究され、重要な実用的応用がなされている。
近年、異常検出アルゴリズムは、主にディープラーニング生成モデルに基づいており、再構成誤差を用いて異常を検出する。
本稿では,正規化に対する再構成異常の考え方に基づくRANを提案し,それを教師なし時系列異常検出に適用する。
論文 参考訳(メタデータ) (2020-10-14T07:10:55Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。