Fugu-MT 論文翻訳(概要): An Efficient Technique for Image Captioning using Deep Neural Network

論文の概要: An Efficient Technique for Image Captioning using Deep Neural Network

arxiv url: http://arxiv.org/abs/2009.02565v1
Date: Sat, 5 Sep 2020 17:11:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-21 20:44:02.043919
Title: An Efficient Technique for Image Captioning using Deep Neural Network
Title（参考訳）: ディープニューラルネットワークを用いた画像キャプションの効率的な手法
Authors: Borneel Bikash Phukan, Amiya Ranjan Panda
Abstract要約: インターネット上のすべてのエンティティは、適切に識別され、管理されなければならない。本稿では,画像の自動キャプションを実現するための,効率的かつユニークな手法について述べる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the huge expansion of internet and trillions of gigabytes of data generated every single day, the needs for the development of various tools has become mandatory in order to maintain system adaptability to rapid changes. One of these tools is known as Image Captioning. Every entity in internet must be properly identified and managed and therefore in the case of image data, automatic captioning for identification is required. Similarly, content generation for missing labels, image classification and artificial languages all requires the process of Image Captioning. This paper discusses an efficient and unique way to perform automatic image captioning on individual image and discusses strategies to improve its performances and functionalities.
Abstract（参考訳）: インターネットの大規模拡大と、毎日何兆ギガバイトものデータを生成することで、急速な変化へのシステム適応性を維持するために、さまざまなツールの開発の必要性が求められている。これらのツールの1つはイメージキャプションとして知られている。インターネット上のすべてのエンティティは適切に識別および管理されなければならないため、画像データの場合、識別のための自動キャプションが必要である。同様に、欠落ラベル、画像分類、人工言語のためのコンテンツ生成は、すべて画像キャプションのプロセスを必要とする。本稿では,個々の画像の自動キャプションを行うための効率的かつユニークな手法について論じ,その性能と機能を改善するための戦略について論じる。

関連論文リスト

Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文参考訳（メタデータ） (2025-01-03T18:09:26Z)
Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。本稿では,AVGという自己回帰ボウケン生成手法を提案する。 AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文参考訳（メタデータ） (2024-07-24T13:39:51Z)
What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文参考訳（メタデータ） (2024-05-01T12:49:57Z)
PICS: Pipeline for Image Captioning and Search [0.0]
本稿では,大規模画像レポジトリの編成に固有の複雑さに対処するために,PICS(Pipeline for Image Captioning and Search)を提案する。このアプローチは、意味のあるAI生成キャプションが大規模なデータベースにおける画像の検索可能性とアクセシビリティを大幅に向上させる、という理解に根ざしている。 PICSの重要性は、画像データベースシステムを変換し、現代のデジタル資産管理の要求を満たすために機械学習と自然言語処理の力を利用する可能性にある。
論文参考訳（メタデータ） (2024-02-01T03:08:21Z)
Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文参考訳（メタデータ） (2023-11-05T01:14:02Z)
Adapt Anything: Tailor Any Image Classifiers across Domains And Categories Using Text-to-Image Diffusion Models [82.95591765009105]
我々は,現代テキスト・画像拡散モデルが,ドメインやカテゴリ間でタスク適応型画像分類器をカスタマイズできるかどうかを検討することを目的とする。対象のテキストプロンプトから派生したカテゴリラベルを用いた画像合成には,1つのオフ・ザ・シェルフテキスト・ツー・イメージモデルのみを用いる。
論文参考訳（メタデータ） (2023-10-25T11:58:14Z)
Improving Generalization of Image Captioning with Unsupervised Prompt Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。 GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文参考訳（メタデータ） (2023-08-05T12:27:01Z)
Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文参考訳（メタデータ） (2022-06-16T07:56:28Z)
Image Captioning using Deep Stacked LSTMs, Contextual Word Embeddings and Data Augmentation [1.2183405753834562]
Inception-ResNet Convolutional Neural Network をエンコーダとして,画像から特徴を抽出する。また、単語表現には階層型コンテキストベースのWord Embeddings、デコーダにはDeep Stacked Long Term Memory Networkを使用します。提案手法をデコーダとソフトアテンションの2つの画像キャプションフレームワークを用いて評価する。
論文参考訳（メタデータ） (2021-02-22T18:15:39Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)
Understanding Guided Image Captioning Performance across Domains [22.283016988026926]
本稿では,画像キャプションが重視すべき概念を,ガイドテキストと呼ばれる追加入力を用いて制御する手法を提案する。人的評価の結果から,画像キャプションを組み込むには,大規模で制限のない領域トレーニングデータセットへのアクセスが必要であることが示唆された。
論文参考訳（メタデータ） (2020-12-04T00:05:02Z)
Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文参考訳（メタデータ） (2020-08-11T07:07:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。