論文の概要: ZeroGen: Zero-shot Multimodal Controllable Text Generation with Multiple
Oracles
- arxiv url: http://arxiv.org/abs/2306.16649v1
- Date: Thu, 29 Jun 2023 03:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 14:57:44.994165
- Title: ZeroGen: Zero-shot Multimodal Controllable Text Generation with Multiple
Oracles
- Title(参考訳): ZeroGen: 複数のOracleを使ったゼロショットマルチモーダルテキスト生成
- Authors: Haoqin Tu, Bowen Yang, Xianfeng Zhao
- Abstract要約: マルチモーダル信号(textscZeroGen)を用いたゼロショット制御可能なテキスト生成の新しいパラダイムを提案する。
textscZeroGenはトークンレベルから文レベルまで連続的にテキストと画像の制御を利用し、復号時にそれらを統一された確率空間にマッピングする。
textscZeroGenはキャプションタスクにおいて、大きなマージンで上回るだけでなく、高い制御率を持つマルチモーダルニュース生成にも大きな可能性を秘めている。
- 参考スコア(独自算出の注目度): 29.460712493470453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically generating textual content with desired attributes is an
ambitious task that people have pursued long. Existing works have made a series
of progress in incorporating unimodal controls into language models (LMs),
whereas how to generate controllable sentences with multimodal signals and high
efficiency remains an open question. To tackle the puzzle, we propose a new
paradigm of zero-shot controllable text generation with multimodal signals
(\textsc{ZeroGen}). Specifically, \textsc{ZeroGen} leverages controls of text
and image successively from token-level to sentence-level and maps them into a
unified probability space at decoding, which customizes the LM outputs by
weighted addition without extra training. To achieve better inter-modal
trade-offs, we further introduce an effective dynamic weighting mechanism to
regulate all control weights. Moreover, we conduct substantial experiments to
probe the relationship of being in-depth or in-width between signals from
distinct modalities. Encouraging empirical results on three downstream tasks
show that \textsc{ZeroGen} not only outperforms its counterparts on captioning
tasks by a large margin but also shows great potential in multimodal news
generation with a higher degree of control. Our code will be released at
https://github.com/ImKeTT/ZeroGen.
- Abstract(参考訳): 必要な属性によるテキストコンテンツの自動生成は、人々が長く追求してきた野心的なタスクです。
既存の研究は言語モデル (LM) に一助制御を組み込むことで一連の進歩を遂げているが、マルチモーダル信号と高効率の制御可能な文を生成する方法は未解決の問題である。
そこで我々は,マルチモーダル信号を用いたゼロショット制御可能なテキスト生成の新しいパラダイムを提案する(\textsc{zerogen})。
具体的には、‘textsc{ZeroGen} はトークンレベルから文レベルまで連続的にテキストと画像の制御を利用し、デコード時にそれらを統一された確率空間にマッピングする。
さらに、モーダル間トレードオフを改善するために、全ての制御重みを規制する効果的な動的重み付け機構を導入する。
さらに,異なるモーダリティからの信号間の奥行き関係や奥行き関係を調べるために,実質的な実験を行った。
3つのダウンストリームタスクにおける経験的成果を奨励すると、\textsc{zerogen} はキャプションタスクに対して、大きなマージンを持つだけでなく、より高度な制御を持つマルチモーダルニュース生成において大きな可能性を秘めている。
私たちのコードはhttps://github.com/imkett/zerogenでリリースします。
関連論文リスト
- AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。
AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。
このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文 参考訳(メタデータ) (2024-06-27T07:40:59Z) - Discrete Multimodal Transformers with a Pretrained Large Language Model for Mixed-Supervision Speech Processing [17.92378239787507]
DMLM(Decoder-only Discrete Multimodal Language Model)を提案する。
DMLMは、複数のタスク(ASR、T2S、S2TTなど)とモダリティ(テキスト、音声、ビジョン)に柔軟に適用できる。
その結果,DMLMは複数のタスクやデータセットにまたがって,教師なしと教師なしのトレーニングの組み合わせによって大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2024-06-04T20:08:25Z) - From Text to Pixel: Advancing Long-Context Understanding in MLLMs [70.78454154014989]
本稿では,この問題に対処するために設計された多モーダル大規模言語モデルであるSEEKERを紹介する。
SEEKERは、画像を介してテキストシーケンスを視覚ピクセル空間に圧縮することで、長文のコンパクトエンコーディングを最適化することを目的としている。
6つの長文マルチモーダルタスクに関する実験により、SEEKERは、OCRベースの手法と比較して、同じ量のテキスト情報を伝達するために、少ない画像トークンを利用できることを示した。
論文 参考訳(メタデータ) (2024-05-23T06:17:23Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models [69.49978333446538]
TEALは任意のモダリティからの入力をトークンシーケンスとして扱うアプローチである。
トークンシーケンスを学習可能な埋め込み行列で結合埋め込み空間に埋め込む。
実験により、TEALはマルチモーダル理解を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-11-08T10:34:16Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Plug-and-Blend: A Framework for Controllable Story Generation with
Blended Control Codes [11.053902512072813]
制御可能な言語生成フレームワークPlug-and-Blendについて述べる。
自動ストーリ生成のコンテキストでは、人間のユーザがトピックやそれらの間の遷移をきめ細やかに制御することができる。
人間の参加者による評価は、生成されたストーリーが2つのトピックの間で観測可能に遷移していることを示している。
論文 参考訳(メタデータ) (2021-03-23T03:15:14Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。