論文の概要: Interactive Attention AI to translate low light photos to captions for
night scene understanding in women safety
- arxiv url: http://arxiv.org/abs/2201.00969v1
- Date: Tue, 4 Jan 2022 04:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 20:59:28.083237
- Title: Interactive Attention AI to translate low light photos to captions for
night scene understanding in women safety
- Title(参考訳): 女性の安全における夜景理解のために、低照度写真を字幕に翻訳するInteractive Attention AI
- Authors: Rajagopal A, Nirmala V, Arun Muthuraj Vedamanickam
- Abstract要約: 本稿では,夜間シーンを文に変換するディープラーニングモデルを開発する。
Image CaptioningとVisual Question Answeringに触発されて、インタラクティブな画像キャプションが開発された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is amazing progress in Deep Learning based models for Image captioning
and Low Light image enhancement. For the first time in literature, this paper
develops a Deep Learning model that translates night scenes to sentences,
opening new possibilities for AI applications in the safety of visually
impaired women. Inspired by Image Captioning and Visual Question Answering, a
novel Interactive Image Captioning is developed. A user can make the AI focus
on any chosen person of interest by influencing the attention scoring.
Attention context vectors are computed from CNN feature vectors and
user-provided start word. The Encoder-Attention-Decoder neural network learns
to produce captions from low brightness images. This paper demonstrates how
women safety can be enabled by researching a novel AI capability in the
Interactive Vision-Language model for perception of the environment in the
night.
- Abstract(参考訳): 画像キャプションと低光画像強調のためのディープラーニングベースのモデルには驚くべき進歩があります。
文学において初めて、夜間シーンを文に変換するディープラーニングモデルを開発し、視覚障害者の安全におけるAI応用の可能性を広げる。
画像キャプションと視覚的質問応答にインスパイアされた新しいインタラクティブ画像キャプションを開発した。
ユーザは、注目スコアに影響を与えることで、選択した関係者にAIを集中させることができる。
cnn特徴ベクトルとユーザ提供開始語から注意コンテキストベクトルを算出する。
Encoder-Attention-Decoderニューラルネットワークは、低輝度画像からキャプションを生成することを学ぶ。
本稿では,夜の環境知覚のための対話型視覚言語モデルにおける新たなai能力の研究により,女性の安全を実現する方法を示す。
関連論文リスト
- Caption-Driven Explorations: Aligning Image and Text Embeddings through Human-Inspired Foveated Vision [3.3295510777293837]
本稿では,キャプションタスク中の人間の注意力を調べるために,キャプションとクリックコンセント画像探索を備えたデータセットであるCapMIT1003を紹介する。
また、NevaClipは、CLIPモデルとNeVAアルゴリズムを組み合わせることで、視覚スキャンパスを予測するゼロショット方式である。
論文 参考訳(メタデータ) (2024-08-19T12:41:46Z) - Assistive Image Annotation Systems with Deep Learning and Natural Language Capabilities: A Review [0.0]
本稿では、入力画像のテキスト提案、キャプション、記述をアノテータに提供するためのAI支援型ディープラーニング画像アノテーションシステムについて検討する。
各種データセットをレビューし,AI補助アノテーションシステムのトレーニングと評価にどのように貢献するかを検討する。
有望な可能性にもかかわらず、テキスト出力機能を備えたAIアシスト画像アノテーションに関する公開作業は限られている。
論文 参考訳(メタデータ) (2024-06-28T22:56:17Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Neural Twins Talk & Alternative Calculations [3.198144010381572]
高度に焦点を絞った対象を説明する際に、人間の脳がより多くの神経経路をいかに採用しているかに着想を得て、より優れたパフォーマンスを達成するために深い注意モデルを拡張することができることを示した。
画像キャプションはコンピュータビジョンと自然言語処理のギャップを埋める。
論文 参考訳(メタデータ) (2021-08-05T18:41:34Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - Boost Image Captioning with Knowledge Reasoning [10.733743535624509]
本稿では,単語ごとの逐次的な記述を生成する際の視覚的注意の正しさを改善するために,単語注意を提案する。
本稿では,知識グラフから抽出した外部知識をエンコーダ・デコーダ・フレームワークに注入し,意味のあるキャプションを容易にする新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-02T12:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。