論文の概要: Neural Twins Talk & Alternative Calculations
- arxiv url: http://arxiv.org/abs/2108.02807v1
- Date: Thu, 5 Aug 2021 18:41:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 14:36:15.162307
- Title: Neural Twins Talk & Alternative Calculations
- Title(参考訳): ニューラルツイントークと代替計算
- Authors: Zanyar Zohourianshahzadi, Jugal K. Kalita
- Abstract要約: 高度に焦点を絞った対象を説明する際に、人間の脳がより多くの神経経路をいかに採用しているかに着想を得て、より優れたパフォーマンスを達成するために深い注意モデルを拡張することができることを示した。
画像キャプションはコンピュータビジョンと自然言語処理のギャップを埋める。
- 参考スコア(独自算出の注目度): 3.198144010381572
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Inspired by how the human brain employs a higher number of neural pathways
when describing a highly focused subject, we show that deep attentive models
used for the main vision-language task of image captioning, could be extended
to achieve better performance. Image captioning bridges a gap between computer
vision and natural language processing. Automated image captioning is used as a
tool to eliminate the need for human agent for creating descriptive captions
for unseen images.Automated image captioning is challenging and yet
interesting. One reason is that AI based systems capable of generating
sentences that describe an input image could be used in a wide variety of tasks
beyond generating captions for unseen images found on web or uploaded to social
media. For example, in biology and medical sciences, these systems could
provide researchers and physicians with a brief linguistic description of
relevant images, potentially expediting their work.
- Abstract(参考訳): 高度に焦点を絞った主題を記述する際に、人間の脳がより多くの神経経路をいかに採用しているかに着想を得て、画像キャプションの主視覚言語タスクに使用される深い注意モデルが、より良いパフォーマンスを達成するために拡張可能であることを示す。
画像キャプションは、コンピュータビジョンと自然言語処理の間のギャップを埋める。
自動キャプションは、人間のエージェントが見えない画像に記述的なキャプションを作成する必要をなくすためのツールとして使われている。
ひとつは、入力画像を記述する文を生成することができるAIベースのシステムは、Webやソーシャルメディアにアップロードされた未確認画像のキャプションを生成する以外に、さまざまなタスクで使用できるからだ。
例えば、生物学や医学では、これらのシステムは研究者や医師に関連画像の言語的記述を簡潔に提供し、研究を迅速化する可能性がある。
関連論文リスト
- Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Representing visual classification as a linear combination of words [0.0]
視覚分類タスクの言語ベースの記述子を識別するために,視覚言語モデルを用いた説明可能性戦略を提案する。
画像とテキストの間に予め訓練された結合埋め込み空間を利用することで,新しい分類課題を単語の線形結合として推定する。
その結果,ドメイン特化言語訓練の欠如にもかかわらず,結果として得られた記述子は臨床知識とほぼ一致していることが判明した。
論文 参考訳(メタデータ) (2023-11-18T02:00:20Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Vision-Language Models in Remote Sensing: Current Progress and Future Trends [25.017685538386548]
視覚言語モデルは、画像とその関連するテキスト記述の推論を可能にし、基礎となるセマンティクスのより深い理解を可能にする。
視覚言語モデルは、RS画像の視覚的認識を超えて、意味的関係をモデル化し、画像の自然言語記述を生成することができる。
本稿では,リモートセンシングにおける視覚言語モデルの研究を包括的にレビューする。
論文 参考訳(メタデータ) (2023-05-09T19:17:07Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Describing image focused in cognitive and visual details for visually
impaired people: An approach to generating inclusive paragraphs [2.362412515574206]
ウェブナーなど、オンラインコンテンツに表示される画像コンテキストの理解など、特定のタスクをサポートするサービスが不足している。
本稿では,高密度キャプション手法とフィルタを併用したウェビナー画像のコンテキスト生成手法を提案し,ドメイン内のキャプションに適合する手法と抽象要約タスクのための言語モデルを提案する。
論文 参考訳(メタデータ) (2022-02-10T21:20:53Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Goal-driven text descriptions for images [7.059848512713061]
この論文は視覚入力のテキスト出力を生成することに焦点を当てている。
我々は、より識別しやすいように生成した参照表現を誘導するために、理解機械を使用する。
第5章では,学習目標とサンプリング手法がモデルが多様なキャプションを生成する能力に与える影響について検討した。
論文 参考訳(メタデータ) (2021-08-28T05:10:38Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。