論文の概要: TREND: A Whitespace Replacement Information Hiding Method
- arxiv url: http://arxiv.org/abs/2502.12710v1
- Date: Tue, 18 Feb 2025 10:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 20:12:08.901752
- Title: TREND: A Whitespace Replacement Information Hiding Method
- Title(参考訳): TREND:Whitespace Replacement Information Hiding Method
- Authors: Malte Hellmeier, Hendrik Norkowski, Ernst-Christoph Schrewe, Haydar Qarawlus, Falk Howar,
- Abstract要約: 本稿では,TRENDと呼ばれる情報隠蔽手法を提案する。
カバーテキスト内に任意のバイトエンコードされたシーケンスを隠せる。
従来のホワイトスペース文字を視覚的に類似したUnicodeホワイトスペース文字で置き換えることで、本提案手法は、カバーテキストのセマンティクスを保存できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have gained significant popularity in recent years. Differentiating between a text written by a human and a text generated by an LLM has become almost impossible. Information hiding techniques such as digital watermarking or steganography can help by embedding information inside text without being noticed. However, existing techniques, such as linguistic-based or format-based methods, change the semantics or do not work on pure, unformatted text. In this paper, we introduce a novel method for information hiding termed TREND, which is able to conceal any byte-encoded sequence within a cover text. The proposed method is implemented as a multi-platform library using the Kotlin programming language, accompanied by a command-line tool and a web interface provided as examples of usage. By substituting conventional whitespace characters with visually similar Unicode whitespace characters, our proposed scheme preserves the semantics of the cover text without increasing the number of characters. Furthermore, we propose a specified structure for secret messages that enables configurable compression, encryption, hashing, and error correction. Our experimental benchmark comparison on a dataset of one million Wikipedia articles compares ten algorithms from literature and practice. It proves the robustness of our proposed method in various applications while remaining imperceptible to humans. We discuss the limitations of limited embedding capacity and further robustness, which guide implications for future work.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年大きな人気を集めている。
人間によって書かれたテキストとLLMによって生成されたテキストとを区別することはほぼ不可能である。
デジタル透かしやステガノグラフィーなどの情報隠蔽技術は、注意を払わずにテキストに情報を埋め込むことで役立つ。
しかし、言語ベースの手法やフォーマットベースの手法のような既存の技術は意味論を変更したり、純粋で非形式的なテキストで機能しない。
本稿では,カバーテキスト内に任意のバイトエンコードされたシーケンスを隠蔽できるTRENDという情報隠蔽手法を提案する。
提案手法はKotlinプログラミング言語を用いたマルチプラットフォームライブラリとして実装され,コマンドラインツールとWebインターフェースが使用例として提供される。
従来のホワイトスペース文字を視覚的に類似したUnicodeホワイトスペース文字で置き換えることで,文字数を増やすことなくカバーテキストの意味を保存できる。
さらに,設定可能な圧縮,暗号化,ハッシュ,エラー訂正を可能にする秘密メッセージの特定構造を提案する。
ウィキペディアの記事100万件のデータセットに対する実験的なベンチマークでは、文献と実践から10のアルゴリズムを比較した。
提案手法の頑健性は,人間には認められないまま,様々な応用で証明されている。
埋込容量の制限とさらなる堅牢性について論じ,今後の課題への示唆を導いた。
関連論文リスト
- MoCE: Adaptive Mixture of Contextualization Experts for Byte-based Neural Machine Translation [13.70446799743065]
バイトベースの機械翻訳システムは、多言語設定において大きな可能性を秘めている。
Unicode符号化は、新しい言語でも未知の単語の出現を排除し、各文字を特定のバイトにマッピングする。
局所的な文脈化は、初期意味論をトークンに割り当て、文理解を改善するのに有効であることが証明されている。
本研究では,コンテキスト化エキスパートとして扱われる注意ヘッドを適応的に選択・混合する,コンテキスト化エキスパートの混合(MoCE)を提案する。
論文 参考訳(メタデータ) (2024-11-03T08:15:43Z) - Variables are a Curse in Software Vulnerability Prediction [4.453430599945387]
本稿では、名前依存と呼ばれる新しいタイプのエッジ、名前依存に基づく抽象構文グラフ、および3プロパティ符号化方式と呼ばれる効率的なノード表現手法を紹介する。
これらの技術により、コードから具体的な変数名を取り除き、ディープラーニングモデルにより、多様なコード表現に隠されたソフトウェアの機能を学ぶことができます。
論文 参考訳(メタデータ) (2024-06-18T16:02:29Z) - Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [50.564146730579424]
テキスト埋め込み合成器(TES)を提案する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2024-03-15T02:40:13Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Provably Robust Multi-bit Watermarking for AI-generated Text [37.21416140194606]
大規模言語モデル(LLM)は、人間の言語に似たテキストを生成する顕著な能力を示した。
犯罪者が偽ニュースやフィッシングメールなどの偽装コンテンツを作成するために悪用することもある。
ウォーターマーキングはこれらの懸念に対処するための重要なテクニックであり、メッセージをテキストに埋め込む。
論文 参考訳(メタデータ) (2024-01-30T08:46:48Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - Enhancing Indic Handwritten Text Recognition Using Global Semantic
Information [36.01828106385858]
Indicの手書きテキストを認識するために,グローバルな意味情報を抽出するために,エンコーダ・デコーダフレームワークのセマンティックモジュールを使用する。
提案するフレームワークは、10のIndic言語で書かれた手書きテキストに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2022-12-15T12:53:26Z) - Autoregressive Linguistic Steganography Based on BERT and Consistency
Coding [17.881686153284267]
言語ステガノグラフィ(LS)は、秘密情報をテキストに埋め込むことによって、コミュニケーションの存在を隠蔽する。
近年のアルゴリズムでは、言語モデル(LM)を用いてステガノグラフテキストを生成する。
本稿では,BERTと整合性符号化に基づく自己回帰型LSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-26T02:36:55Z) - SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and
Out-of-Vocabulary Text [35.83345711291558]
本稿では,任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。
我々は、容易に入手可能な印刷スタイルの画像を提供することで、テキストコンテンツを埋め込むことにより、コンテンツの多様性を柔軟に達成することができる。
本手法は,学習語彙に含まれない単語を,様々な新しいスタイルで合成することができる。
論文 参考訳(メタデータ) (2022-02-23T12:13:27Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Near-imperceptible Neural Linguistic Steganography via Self-Adjusting
Arithmetic Coding [88.31226340759892]
本稿では,ニューラルネットワークモデルに基づく自己調整型算術符号を用いた秘密メッセージを符号化する新しい言語ステガノグラフィー手法を提案する。
人間の評価によると、生成されたカバーテキストの51%は、実際に盗聴器を騙すことができる。
論文 参考訳(メタデータ) (2020-10-01T20:40:23Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。