論文の概要: Innamark: A Whitespace Replacement Information-Hiding Method
- arxiv url: http://arxiv.org/abs/2502.12710v2
- Date: Mon, 28 Apr 2025 19:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 20:17:25.678398
- Title: Innamark: A Whitespace Replacement Information-Hiding Method
- Title(参考訳): Innamark: ホワイトスペースの代替情報共有手法
- Authors: Malte Hellmeier, Hendrik Norkowski, Ernst-Christoph Schrewe, Haydar Qarawlus, Falk Howar,
- Abstract要約: Innamarkと呼ばれる新しい情報隠蔽手法を提案する。
Innamarkは十分な長さのカバーテキスト内に任意のバイトエンコードされたシーケンスを隠せる。
本稿では、圧縮、暗号化、ハッシュ、エラー訂正を可能にする秘密メッセージの特定構造を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have gained significant popularity in recent years. Differentiating between a text written by a human and one generated by an LLM has become almost impossible. Information-hiding techniques such as digital watermarking or steganography can help by embedding information inside text in a form that is unlikely to be noticed. However, existing techniques, such as linguistic-based or format-based methods, change the semantics or cannot be applied to pure, unformatted text. In this paper, we introduce a novel method for information hiding called Innamark, which can conceal any byte-encoded sequence within a sufficiently long cover text. This method is implemented as a multi-platform library using the Kotlin programming language, which is accompanied by a command-line tool and a web interface. By substituting conventional whitespace characters with visually similar Unicode whitespace characters, our proposed scheme preserves the semantics of the cover text without changing the number of characters. Furthermore, we propose a specified structure for secret messages that enables configurable compression, encryption, hashing, and error correction. An experimental benchmark comparison on a dataset of 1000000 Wikipedia articles compares ten algorithms. The results demonstrate the robustness of our proposed Innamark method in various applications and the imperceptibility of its watermarks to humans. We discuss the limits to the embedding capacity and robustness of the algorithm and how these could be addressed in future work.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年大きな人気を集めている。
人間によって書かれたテキストとLDMによって生成されたテキストの区別はほぼ不可能になっている。
デジタル透かしやステガノグラフィーのような情報ハイディング技術は、テキストに情報を埋め込むことで、気づかないような形で情報を埋め込むのに役立つ。
しかし、言語ベースの手法やフォーマットベースの手法のような既存の技術は意味論を変更したり、純粋で非形式的なテキストに適用できない。
本稿では,Innamarkと呼ばれる情報隠蔽手法を提案する。
このメソッドは、コマンドラインツールとWebインターフェースを備えたKotlinプログラミング言語を使用して、マルチプラットフォームライブラリとして実装されている。
従来のホワイトスペース文字を視覚的に類似したUnicodeホワイトスペース文字で置き換えることで,文字数を変更せずにカバーテキストのセマンティクスを保存できる。
さらに,設定可能な圧縮,暗号化,ハッシュ,エラー訂正を可能にする秘密メッセージの特定構造を提案する。
1000000のウィキペディア記事のデータセットに関する実験的なベンチマークは、10のアルゴリズムを比較します。
提案手法の各種応用におけるロバスト性, 透かしの人間への受容性について検討した。
本稿では,アルゴリズムの組込み能力と堅牢性に対する限界と,今後の課題について論じる。
関連論文リスト
- MoCE: Adaptive Mixture of Contextualization Experts for Byte-based Neural Machine Translation [13.70446799743065]
バイトベースの機械翻訳システムは、多言語設定において大きな可能性を秘めている。
Unicode符号化は、新しい言語でも未知の単語の出現を排除し、各文字を特定のバイトにマッピングする。
局所的な文脈化は、初期意味論をトークンに割り当て、文理解を改善するのに有効であることが証明されている。
本研究では,コンテキスト化エキスパートとして扱われる注意ヘッドを適応的に選択・混合する,コンテキスト化エキスパートの混合(MoCE)を提案する。
論文 参考訳(メタデータ) (2024-11-03T08:15:43Z) - Variables are a Curse in Software Vulnerability Prediction [4.453430599945387]
本稿では、名前依存と呼ばれる新しいタイプのエッジ、名前依存に基づく抽象構文グラフ、および3プロパティ符号化方式と呼ばれる効率的なノード表現手法を紹介する。
これらの技術により、コードから具体的な変数名を取り除き、ディープラーニングモデルにより、多様なコード表現に隠されたソフトウェアの機能を学ぶことができます。
論文 参考訳(メタデータ) (2024-06-18T16:02:29Z) - Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [50.564146730579424]
テキスト埋め込み合成器(TES)を提案する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2024-03-15T02:40:13Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Provably Robust Multi-bit Watermarking for AI-generated Text [37.21416140194606]
大規模言語モデル(LLM)は、人間の言語に似たテキストを生成する顕著な能力を示した。
犯罪者が偽ニュースやフィッシングメールなどの偽装コンテンツを作成するために悪用することもある。
ウォーターマーキングはこれらの懸念に対処するための重要なテクニックであり、メッセージをテキストに埋め込む。
論文 参考訳(メタデータ) (2024-01-30T08:46:48Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Watermarking Text Generated by Black-Box Language Models [103.52541557216766]
テキスト生成中に透かしを埋め込むことのできるホワイトボックスLCMに対して,透かしに基づく手法が提案されている。
リストを認識した検出アルゴリズムは、透かし付きテキストを識別することができる。
我々はブラックボックス言語モデル利用シナリオのための透かしフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-14T07:37:33Z) - Enhancing Indic Handwritten Text Recognition Using Global Semantic
Information [36.01828106385858]
Indicの手書きテキストを認識するために,グローバルな意味情報を抽出するために,エンコーダ・デコーダフレームワークのセマンティックモジュールを使用する。
提案するフレームワークは、10のIndic言語で書かれた手書きテキストに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2022-12-15T12:53:26Z) - Autoregressive Linguistic Steganography Based on BERT and Consistency
Coding [17.881686153284267]
言語ステガノグラフィ(LS)は、秘密情報をテキストに埋め込むことによって、コミュニケーションの存在を隠蔽する。
近年のアルゴリズムでは、言語モデル(LM)を用いてステガノグラフテキストを生成する。
本稿では,BERTと整合性符号化に基づく自己回帰型LSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-26T02:36:55Z) - SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and
Out-of-Vocabulary Text [35.83345711291558]
本稿では,任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。
我々は、容易に入手可能な印刷スタイルの画像を提供することで、テキストコンテンツを埋め込むことにより、コンテンツの多様性を柔軟に達成することができる。
本手法は,学習語彙に含まれない単語を,様々な新しいスタイルで合成することができる。
論文 参考訳(メタデータ) (2022-02-23T12:13:27Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Near-imperceptible Neural Linguistic Steganography via Self-Adjusting
Arithmetic Coding [88.31226340759892]
本稿では,ニューラルネットワークモデルに基づく自己調整型算術符号を用いた秘密メッセージを符号化する新しい言語ステガノグラフィー手法を提案する。
人間の評価によると、生成されたカバーテキストの51%は、実際に盗聴器を騙すことができる。
論文 参考訳(メタデータ) (2020-10-01T20:40:23Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。