論文の概要: TREND: A Whitespace Replacement Information Hiding Method
- arxiv url: http://arxiv.org/abs/2502.12710v1
- Date: Tue, 18 Feb 2025 10:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:09:39.077248
- Title: TREND: A Whitespace Replacement Information Hiding Method
- Title(参考訳): TREND:Whitespace Replacement Information Hiding Method
- Authors: Malte Hellmeier, Hendrik Norkowski, Ernst-Christoph Schrewe, Haydar Qarawlus, Falk Howar,
- Abstract要約: 本稿では,TRENDと呼ばれる情報隠蔽手法を提案する。
カバーテキスト内に任意のバイトエンコードされたシーケンスを隠せる。
従来のホワイトスペース文字を視覚的に類似したUnicodeホワイトスペース文字で置き換えることで、本提案手法は、カバーテキストのセマンティクスを保存できる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs) have gained significant popularity in recent years. Differentiating between a text written by a human and a text generated by an LLM has become almost impossible. Information hiding techniques such as digital watermarking or steganography can help by embedding information inside text without being noticed. However, existing techniques, such as linguistic-based or format-based methods, change the semantics or do not work on pure, unformatted text. In this paper, we introduce a novel method for information hiding termed TREND, which is able to conceal any byte-encoded sequence within a cover text. The proposed method is implemented as a multi-platform library using the Kotlin programming language, accompanied by a command-line tool and a web interface provided as examples of usage. By substituting conventional whitespace characters with visually similar Unicode whitespace characters, our proposed scheme preserves the semantics of the cover text without increasing the number of characters. Furthermore, we propose a specified structure for secret messages that enables configurable compression, encryption, hashing, and error correction. Our experimental benchmark comparison on a dataset of one million Wikipedia articles compares ten algorithms from literature and practice. It proves the robustness of our proposed method in various applications while remaining imperceptible to humans. We discuss the limitations of limited embedding capacity and further robustness, which guide implications for future work.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年大きな人気を集めている。
人間によって書かれたテキストとLLMによって生成されたテキストとを区別することはほぼ不可能である。
デジタル透かしやステガノグラフィーなどの情報隠蔽技術は、注意を払わずにテキストに情報を埋め込むことで役立つ。
しかし、言語ベースの手法やフォーマットベースの手法のような既存の技術は意味論を変更したり、純粋で非形式的なテキストで機能しない。
本稿では,カバーテキスト内に任意のバイトエンコードされたシーケンスを隠蔽できるTRENDという情報隠蔽手法を提案する。
提案手法はKotlinプログラミング言語を用いたマルチプラットフォームライブラリとして実装され,コマンドラインツールとWebインターフェースが使用例として提供される。
従来のホワイトスペース文字を視覚的に類似したUnicodeホワイトスペース文字で置き換えることで,文字数を増やすことなくカバーテキストの意味を保存できる。
さらに,設定可能な圧縮,暗号化,ハッシュ,エラー訂正を可能にする秘密メッセージの特定構造を提案する。
ウィキペディアの記事100万件のデータセットに対する実験的なベンチマークでは、文献と実践から10のアルゴリズムを比較した。
提案手法の頑健性は,人間には認められないまま,様々な応用で証明されている。
埋込容量の制限とさらなる堅牢性について論じ,今後の課題への示唆を導いた。
関連論文リスト
- MoCE: Adaptive Mixture of Contextualization Experts for Byte-based Neural Machine Translation [13.70446799743065]
バイトベースの機械翻訳システムは、多言語設定において大きな可能性を秘めている。
Unicode符号化は、新しい言語でも未知の単語の出現を排除し、各文字を特定のバイトにマッピングする。
局所的な文脈化は、初期意味論をトークンに割り当て、文理解を改善するのに有効であることが証明されている。
本研究では,コンテキスト化エキスパートとして扱われる注意ヘッドを適応的に選択・混合する,コンテキスト化エキスパートの混合(MoCE)を提案する。
論文 参考訳(メタデータ) (2024-11-03T08:15:43Z) - GuideWalk: A Novel Graph-Based Word Embedding for Enhanced Text Classification [0.0]
テキストデータの処理には埋め込みが必要であり、テキストの内容を数値ベクトルに変換する方法である。
新たなテキスト埋め込み手法,すなわちガイド遷移確率行列(GTPM)モデルを提案する。
提案手法は,実世界のデータセットと8つのよく知られた,成功した埋め込みアルゴリズムを用いて検証する。
論文 参考訳(メタデータ) (2024-04-25T18:48:11Z) - Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [50.564146730579424]
テキスト埋め込み合成器(TES)を提案する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2024-03-15T02:40:13Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Autoregressive Linguistic Steganography Based on BERT and Consistency
Coding [17.881686153284267]
言語ステガノグラフィ(LS)は、秘密情報をテキストに埋め込むことによって、コミュニケーションの存在を隠蔽する。
近年のアルゴリズムでは、言語モデル(LM)を用いてステガノグラフテキストを生成する。
本稿では,BERTと整合性符号化に基づく自己回帰型LSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-26T02:36:55Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Near-imperceptible Neural Linguistic Steganography via Self-Adjusting
Arithmetic Coding [88.31226340759892]
本稿では,ニューラルネットワークモデルに基づく自己調整型算術符号を用いた秘密メッセージを符号化する新しい言語ステガノグラフィー手法を提案する。
人間の評価によると、生成されたカバーテキストの51%は、実際に盗聴器を騙すことができる。
論文 参考訳(メタデータ) (2020-10-01T20:40:23Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。