論文の概要: A Self-Explainable Stylish Image Captioning Framework via
Multi-References
- arxiv url: http://arxiv.org/abs/2110.10704v1
- Date: Wed, 20 Oct 2021 18:00:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 16:04:04.617354
- Title: A Self-Explainable Stylish Image Captioning Framework via
Multi-References
- Title(参考訳): マルチ参照による自己説明可能なスタイリッシュ画像キャプションフレームワーク
- Authors: Chengxi Li and Brent Harrison
- Abstract要約: マルチモード機構(2M)によるスタイリッシュな画像キャプションモデルの構築を提案する。
この2Mメカニズムがスタイリッシュなキャプションモデルの構築にどのように使用できるかを示し、これらのモデルがモデル内の潜在的なエラーを説明するためにどのように使用できるかを示す。
- 参考スコア(独自算出の注目度): 8.069209836624495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose to build a stylish image captioning model through a
Multi-style Multi modality mechanism (2M). We demonstrate that with 2M, we can
build an effective stylish captioner and that multi-references produced by the
model can also support explaining the model through identifying erroneous input
features on faulty examples. We show how this 2M mechanism can be used to build
stylish captioning models and show how these models can be utilized to provide
explanations of likely errors in the models.
- Abstract(参考訳): 本稿では,Multi-style Multi modality mechanism (2M)を用いて,スタイリッシュな画像キャプションモデルを構築することを提案する。
2Mでは,スタイリッシュなスタイリッシュなキャプタを効果的に構築でき,モデルが生成するマルチ参照も,誤入力の特徴を誤検出してモデルの説明を支援することができることを示す。
この2mメカニズムをスタイリッシュなキャプションモデルの構築に利用し,モデル内の可能性のあるエラーの説明に活用する方法を示す。
関連論文リスト
- FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Multi-Modal Generative Embedding Model [34.34876575183736]
本稿では,MM-GEM(Multi-Modal Generative Embedding Model)を提案する。
例えば、ViT-LargeとTinyLlamaからインスタンス化されたMM-GEMは、マルチモーダル埋め込みモデルのベンチマーク上での競合性能を示している。
MM-GEMの高度なテキストモデルは、長いテキストと画像検索のためのRecall@1を5%以上改善する。
論文 参考訳(メタデータ) (2024-05-29T17:59:10Z) - Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。
最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。
生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文 参考訳(メタデータ) (2024-04-03T10:11:22Z) - VLRM: Vision-Language Models act as Reward Models for Image Captioning [45.59831141171801]
本稿では,CLIP や BLIP2-ITM などの視覚言語モデルを用いた画像キャプションモデルの拡張手法を提案する。
われわれのモデルはMS-COCO Carpathy Test Splitで0.90 R@1 CLIP Recallスコアに達した。
論文 参考訳(メタデータ) (2024-04-02T12:57:22Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - DiffUTE: Universal Text Editing Diffusion Model [32.384236053455]
汎用的な自己教師型テキスト編集拡散モデル(DiffUTE)を提案する。
それは、その現実的な外観を維持しながら、ソースイメージ内の単語を別の単語に置き換えたり、修正したりすることを目的としている。
提案手法は印象的な性能を実現し,高忠実度画像の編集を可能にする。
論文 参考訳(メタデータ) (2023-05-18T09:06:01Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - 3M: Multi-style image caption generation using Multi-modality features
under Multi-UPDOWN model [8.069209836624495]
マルチモーダル特徴を符号化し,それをキャプションにデコードするマルチUPDOWNキャプションモデルである3Mモデルを提案する。
2つのデータセットでの性能を検証し,人間ライクなキャプション生成におけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2021-03-20T14:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。