論文の概要: Communication breakdown: On the low mutual intelligibility between human
and neural captioning
- arxiv url: http://arxiv.org/abs/2210.11512v1
- Date: Thu, 20 Oct 2022 18:24:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 14:26:53.593994
- Title: Communication breakdown: On the low mutual intelligibility between human
and neural captioning
- Title(参考訳): コミュニケーション障害:人間とニューラルキャプションの相互理解の低さについて
- Authors: Roberto Dess\`i, Eleonora Gualdoni, Francesca Franzon, Gemma Boleda,
Marco Baroni
- Abstract要約: ニューラルキャプタによって生成された人為的なキャプタやキャプタが入力された場合の,ニューラルキャプタベースの画像検索器の0ショット性能を比較した。
ニューラルレトリバーは,ヒトのキャプションよりも神経の摂食において,はるかに高い性能を示すことがわかった。
- 参考スコア(独自算出の注目度): 17.12886568699613
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We compare the 0-shot performance of a neural caption-based image retriever
when given as input either human-produced captions or captions generated by a
neural captioner. We conduct this comparison on the recently introduced
ImageCoDe data-set \citep{Krojer:etal:2022}, which contains hard distractors
nearly identical to the images to be retrieved. We find that the neural
retriever has much higher performance when fed neural rather than human
captions, despite the fact that the former, unlike the latter, were generated
without awareness of the distractors that make the task hard. Even more
remarkably, when the same neural captions are given to human subjects, their
retrieval performance is almost at chance level. Our results thus add to the
growing body of evidence that, even when the ``language'' of neural models
resembles English, this superficial resemblance might be deeply misleading.
- Abstract(参考訳): ニューラルキャプションが生成するキャプションまたはキャプションの入力として与えられた場合、ニューラルキャプションベースの画像検索装置の0ショット性能を比較する。
最近導入された imagecode data-set \citep{krojer:etal:2022} でこの比較を行い、検索対象の画像とほぼ同一の注意をそらした。
我々は、前者とは異なり、タスクを困難にする注意をそらさずに前者を生成するという事実にもかかわらず、人間のキャプションよりも神経を供給した場合、神経検索装置はずっと高いパフォーマンスを示すことを見出した。
さらに驚くべきことに、同じニューラルキャプションが人間の被験者に与えられる場合、その検索性能はほぼ偶然のレベルである。
その結果、神経モデルの'言語'が英語に似ているとしても、この表面的類似性は深い誤解を招く可能性があるという証拠が増えてきている。
関連論文リスト
- Towards Visual Syntactical Understanding [8.530698703124159]
本稿では,ディープニューラルネットワーク(DNN)が視覚的構文理解を備えているかを検討する。
画像中の「単語」を検出し, (ii) 検出された単語をオートエンコーダを用いて順次マスクし, 再構成し, (iii) オリジナルの部分と再構成された部分を各場所で比較し, 統語的正当性を決定する。
CelebAとAFHQのデータセットから,それぞれ92.10%,90.89%の分類精度を得た。
論文 参考訳(メタデータ) (2024-01-30T23:05:43Z) - Tuning In to Neural Encoding: Linking Human Brain and Artificial
Supervised Representations of Language [31.636016502455693]
我々は,プロンプトチューニングを用いた8つの自然言語理解(NLU)タスクの教師付き表現を生成する。
従来の微調整よりも、中国の刺激に対する神経反応をより正確に予測する表現が、プロンプトチューニングによって得られることを示す。
論文 参考訳(メタデータ) (2023-10-05T06:31:01Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Deep Learning Models to Study Sentence Comprehension in the Human Brain [0.1503974529275767]
自然言語を処理する最近の人工ニューラルネットワークは、文レベルの理解を必要とするタスクにおいて、前例のないパフォーマンスを達成する。
我々は、これらの人工言語モデルと人間の脳活動を比較する研究をレビューし、このアプローチが自然言語理解に関わる神経プロセスの理解をいかに改善したかを評価する。
論文 参考訳(メタデータ) (2023-01-16T10:31:25Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Neural Twins Talk & Alternative Calculations [3.198144010381572]
高度に焦点を絞った対象を説明する際に、人間の脳がより多くの神経経路をいかに採用しているかに着想を得て、より優れたパフォーマンスを達成するために深い注意モデルを拡張することができることを示した。
画像キャプションはコンピュータビジョンと自然言語処理のギャップを埋める。
論文 参考訳(メタデータ) (2021-08-05T18:41:34Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Neural Twins Talk [0.0]
本稿では,最新の画像キャプションモデルよりも優れた新しいツインカスケードアテンションモデルを提案する。
視覚的接頭辞は、入力画像内の特定の領域に接頭した文中の単語の存在を保証する。
実験の結果をCOCOデータセット上の3つの画像キャプションタスクで報告する。
論文 参考訳(メタデータ) (2020-09-26T06:58:58Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。