論文の概要: Self-Augmented Multi-Modal Feature Embedding
- arxiv url: http://arxiv.org/abs/2103.04731v1
- Date: Mon, 8 Mar 2021 13:10:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:31:56.835185
- Title: Self-Augmented Multi-Modal Feature Embedding
- Title(参考訳): 自己拡張型マルチモーダル機能埋め込み
- Authors: Shinnosuke Matsuo, Seiichi Uchida, Brian Kenji Iwana
- Abstract要約: 本稿では,自己拡張とマルチモーダル機能埋め込みの併用を提案する。
異なるモダリティの相補的な情報を活用するために、自己拡張型マルチモーダル機能埋め込みは共有特徴空間を用いる。
- 参考スコア(独自算出の注目度): 8.5941401672901
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Oftentimes, patterns can be represented through different modalities. For
example, leaf data can be in the form of images or contours. Handwritten
characters can also be either online or offline. To exploit this fact, we
propose the use of self-augmentation and combine it with multi-modal feature
embedding. In order to take advantage of the complementary information from the
different modalities, the self-augmented multi-modal feature embedding employs
a shared feature space. Through experimental results on classification with
online handwriting and leaf images, we demonstrate that the proposed method can
create effective embeddings.
- Abstract(参考訳): 多くの場合、パターンは異なるモダリティを通して表現できる。
例えば、葉のデータは画像や輪郭の形ですることができます。
手書き文字はオンラインでもオフラインでも利用できる。
この事実を生かすために,我々は自己表現の使用を提案し,マルチモーダル特徴埋め込みと組み合わせる。
異なるモダリティの相補的な情報を活用するために、自己拡張型マルチモーダル機能埋め込みは共有特徴空間を用いる。
オンライン手書きと葉画像による分類実験の結果,提案手法が効果的な埋め込みを作成することができることを実証した。
関連論文リスト
- DiffusionPen: Towards Controlling the Style of Handwritten Text Generation [7.398476020996681]
DiffusionPen (DiffPen) は遅延拡散モデルに基づく5ショットスタイルの手書きテキスト生成手法である。
提案手法は,文字と文体の特徴の両面を抽出し,現実的な手書きサンプルを生成する。
提案手法は,既存の手法を質的かつ定量的に上回り,その付加データにより手書き文字認識(HTR)システムの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-09-09T20:58:25Z) - Unaligning Everything: Or Aligning Any Text to Any Image in Multimodal Models [1.5498250598583487]
我々は、識別可能なテキストの埋め込みを、目立たない敵の攻撃によって、任意の画像に合わせることができることを示す。
本手法は,複数の情報源からのテキストデータセットや画像に適用した場合,100%の成功率を達成する。
論文 参考訳(メタデータ) (2024-07-01T10:25:47Z) - PALP: Prompt Aligned Personalization of Text-to-Image Models [68.91005384187348]
既存のパーソナライズ手法は、パーソナライズ能力や複雑なプロンプトへのアライメントを損なう。
本稿では,この問題に対処するエフィンスル・プロンプトのためのパーソナライズ手法に着目した新しいアプローチを提案する。
本手法はテキストアライメントの改善に優れ,複雑かつ複雑なプロンプトによる画像作成を可能にする。
論文 参考訳(メタデータ) (2024-01-11T18:35:33Z) - Generating Illustrated Instructions [41.613203340244155]
ユーザのニーズに合わせてカスタマイズされた視覚的指示を,図形命令を生成する新しいタスクを導入する。
大規模言語モデル(LLM)のパワーと強力なテキスト・画像生成拡散モデルを組み合わせることで,StackedDiffusionと呼ばれるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T18:59:20Z) - The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。
本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文 参考訳(メタデータ) (2023-11-16T18:59:51Z) - Using Multiple Instance Learning to Build Multimodal Representations [3.354271620160378]
画像テキストによるマルチモーダル表現学習は、モダリティ間でデータを整列させ、重要な医療応用を可能にする。
本稿では,既存の多モーダル表現学習手法を特例として,置換不変スコア関数を構築するための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-11T18:01:11Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - 3M: Multi-style image caption generation using Multi-modality features
under Multi-UPDOWN model [8.069209836624495]
マルチモーダル特徴を符号化し,それをキャプションにデコードするマルチUPDOWNキャプションモデルである3Mモデルを提案する。
2つのデータセットでの性能を検証し,人間ライクなキャプション生成におけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-20T14:12:13Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - SMILE: Semantically-guided Multi-attribute Image and Layout Editing [154.69452301122175]
GAN(Generative Adversarial Networks)の導入以来、属性画像操作は非常に活発な話題となっている。
対象領域の下位領域情報のみを使用しながら、ランダムノイズや画像によって誘導される全ての属性を処理するマルチモーダル表現を提案する。
本手法では,イメージを参照として,あるいはスタイル分布空間を探索することにより,細粒度や粗粒度などの属性の追加,削除,変更を行うことができる。
論文 参考訳(メタデータ) (2020-10-05T20:15:21Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。