Fugu-MT 論文翻訳(概要): Text Steganography with Dynamic Codebook and Multimodal Large Language Model

論文の概要: Text Steganography with Dynamic Codebook and Multimodal Large Language Model

arxiv url: http://arxiv.org/abs/2604.20269v1
Date: Wed, 22 Apr 2026 07:12:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:11.011315
Title: Text Steganography with Dynamic Codebook and Multimodal Large Language Model
Title（参考訳）: 動的コードブックと多モード大言語モデルを用いたテキストステレオグラフィ
Authors: Jianxin Gao, Ruohan Lei, Wanli Peng,
Abstract要約: 動的コードブックとマルチモーダル大言語モデルを用いたブラックボックステキストステガノグラフィーを導入する。暗号化されたステガノグラフマッピングは、ステガノグラフキャプション生成中にシークレットメッセージを埋め込むように設計されている。実験の結果,提案手法は,埋め込み能力とテキスト品質の観点から,既存のホワイトボックステキストステガノグラフィー法よりも優れていた。
参考スコア（独自算出の注目度）: 6.212392340593166
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: With the popularity of the large language models (LLMs), text steganography has achieved remarkable performance. However, existing methods still have some issues: (1) For the white-box paradigm, this steganography behavior is prone to exposure due to sharing the off-the-shelf language model between Alice and Bob.(2) For the black-box paradigm, these methods lack flexibility and practicality since Alice and Bob should share the fixed codebook while sharing a specific extracting prompt for each steganographic sentence. In order to improve the security and practicality, we introduce a black-box text steganography with a dynamic codebook and multimodal large language model. Specifically, we first construct a dynamic codebook via some shared session configuration and a multimodal large language model. Then an encrypted steganographic mapping is designed to embed secret messages during the steganographic caption generation. Furthermore, we introduce a feedback optimization mechanism based on reject sampling to ensure accurate extraction of secret messages. Experimental results show that the proposed method outperforms existing white-box text steganography methods in terms of embedding capacity and text quality. Meanwhile, the proposed method has achieved better practicality and flexibility than the existing black-box paradigm in some popular online social networks.
Abstract（参考訳）: 大規模言語モデル(LLM)の人気により、テキストステガノグラフィーは目覚ましい性能を発揮した。 1)ホワイトボックスのパラダイムでは、AliceとBobの間の既製の言語モデルを共有することによって、このステガノグラフィーの振る舞いが露呈する傾向がある。 2)ブラックボックスのパラダイムでは,AliceとBobは定型コードブックを共有すべきであり,各ステガノグラフ文に対して特定の抽出プロンプトを共有すべきである。セキュリティと実用性を改善するため,動的コードブックとマルチモーダル大言語モデルを用いたブラックボックステキストステガノグラフィを導入する。具体的には、まず共有セッション構成とマルチモーダル大言語モデルを用いて動的コードブックを構築する。次に、ステガノグラフキャプション生成中にシークレットメッセージを埋め込むように、暗号化されたステガノグラフマッピングを設計する。さらに、秘密メッセージの正確な抽出を保証するために、リジェクションサンプリングに基づくフィードバック最適化機構を導入する。実験の結果,提案手法は,埋め込み能力とテキスト品質の観点から,既存のホワイトボックステキストステガノグラフィー法よりも優れていた。一方,提案手法は,一部の人気オンラインソーシャルネットワークにおいて,既存のブラックボックスパラダイムよりも実用性と柔軟性が向上している。

関連論文リスト

Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations [33.11867433769496]
本稿では,共有意味表現における視覚的理解と生成を統一する枠組みを提案する。中心となるのはText-Aligned Tokenizer (TA-Tok) で、これは大きな言語モデル(LLM)の語彙から投影されたテキスト整列コードブックを用いて画像を個別のトークンに変換する。ベンチマークによる実験では、Tarは既存のマルチモーダルLLMメソッドと一致し、より高速な収束とトレーニング効率の向上を実現している。
論文参考訳（メタデータ） (2025-06-23T17:59:14Z)
Towards Improved Text-Aligned Codebook Learning: Multi-Hierarchical Codebook-Text Alignment with Long Text [17.35793995814643]
本稿では,TA-VQ という新しいテキスト拡張コードブック学習フレームワークを提案する。テキスト整合性のあるコードブック学習を改善するために視覚言語モデルを用いて、各画像に対してより長いテキストを生成する。 2つの課題に対処するために、長文を複数の粒度、すなわち単語、句、文に分割することを提案する。
論文参考訳（メタデータ） (2025-03-03T07:38:18Z)
FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文参考訳（メタデータ） (2024-08-09T02:16:37Z)
From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models [38.14123683674355]
本稿では,テキスト・画像拡散モデルの認知ネットワークにおける注意機構を利用する手法を提案する。そこで我々はPascal VOC 2012 と Microsoft COCO 2014 のセマンティックセグメンテーションを弱教師付きで評価した。本研究は,セグメンテーションの拡散モデルに隠された豊富なマルチモーダル知識を抽出する方法を明らかにする。
論文参考訳（メタデータ） (2023-09-08T04:10:01Z)
SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文参考訳（メタデータ） (2022-11-25T18:59:10Z)
Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文参考訳（メタデータ） (2021-04-18T16:56:07Z)
Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。 12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文参考訳（メタデータ） (2020-12-30T09:11:50Z)
TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。 StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文参考訳（メタデータ） (2020-12-06T16:20:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。