論文の概要: Image to Language Understanding: Captioning approach
- arxiv url: http://arxiv.org/abs/2002.09536v1
- Date: Fri, 21 Feb 2020 20:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 01:37:29.327674
- Title: Image to Language Understanding: Captioning approach
- Title(参考訳): 言語理解へのイメージ:キャプションアプローチ
- Authors: Madhavan Seshadri, Malavika Srikanth and Mikhail Belov
- Abstract要約: 本研究の目的は,画像キャプション問題に対する様々なアプローチを比較することである。
エンコーダ・デコーダ方式では,複数モーダル画像キャプション方式と比較した。
画像をアップロードすると、そのようなシステムは画像に関連付けられた最高のキャプションを出力する。
- 参考スコア(独自算出の注目度): 1.7188280334580195
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Extracting context from visual representations is of utmost importance in the
advancement of Computer Science. Representation of such a format in Natural
Language has a huge variety of applications such as helping the visually
impaired etc. Such an approach is a combination of Computer Vision and Natural
Language techniques which is a hard problem to solve. This project aims to
compare different approaches for solving the image captioning problem. In
specific, the focus was on comparing two different types of models:
Encoder-Decoder approach and a Multi-model approach. In the encoder-decoder
approach, inject and merge architectures were compared against a multi-modal
image captioning approach based primarily on object detection. These approaches
have been compared on the basis on state of the art sentence comparison metrics
such as BLEU, GLEU, Meteor, and Rouge on a subset of the Google Conceptual
captions dataset which contains 100k images. On the basis of this comparison,
we observed that the best model was the Inception injected encoder model. This
best approach has been deployed as a web-based system. On uploading an image,
such a system will output the best caption associated with the image.
- Abstract(参考訳): 視覚的表現からコンテキストを抽出することは、コンピュータ科学の発展において最も重要である。
このような形式を自然言語で表現することは、視覚障害者を助けるなど、様々な用途がある。
このようなアプローチは、コンピュータビジョンと自然言語技術の組み合わせであり、解決するのが難しい問題である。
このプロジェクトの目的は,画像キャプション問題を解決するための異なるアプローチを比較することである。
具体的には、Encoder-DecoderアプローチとMulti-modelアプローチの2つの異なるモデルの比較に焦点を当てた。
エンコーダ・デコーダのアプローチでは、インジェクションとマージのアーキテクチャは、主にオブジェクト検出に基づくマルチモーダル画像キャプションアプローチと比較された。
これらのアプローチは, BLEU, GLEU, Meteor, Rougeなどのアート文比較指標の状況に基づいて,100k画像を含むGoogle Conceptualキャプションデータセットのサブセットに基づいて比較されてきた。
この比較から,インセプション注入エンコーダモデルが最も優れたモデルであることが確認された。
このベストなアプローチは、Webベースのシステムとしてデプロイされました。
画像をアップロードすると、そのようなシステムは画像に関連する最高のキャプションを出力する。
関連論文リスト
- A TextGCN-Based Decoding Approach for Improving Remote Sensing Image Captioning [0.15346678870160887]
テキストグラフ畳み込みネットワーク(TextGCN)と多層LSTMをデプロイする新しいエンコーダデコーダ構成を提案する。
TextGCNによって生成された埋め込みは、文レベルとコーパスレベルの両方で単語間の意味的関係をキャプチャすることでデコーダの理解を高める。
我々は,他の最先端のエンコーダ・デコーダフレームワークに対して,我々のアプローチを広範囲に評価する。
論文 参考訳(メタデータ) (2024-09-27T06:12:31Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - I See Dead People: Gray-Box Adversarial Attack on Image-To-Text Models [0.0]
我々は、画像からテキストへのグレーボックスの逆攻撃を、未ターゲティングとターゲットの両方に提示する。
攻撃はグレーボックス方式で実行され、デコーダモジュールに関する知識は不要です。
また、私たちの攻撃は人気のあるオープンソースプラットフォームHugging Faceを騙していることも示しています。
論文 参考訳(メタデータ) (2023-06-13T07:35:28Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。