論文の概要: Describing Images $\textit{Fast and Slow}$: Quantifying and Predicting
the Variation in Human Signals during Visuo-Linguistic Processes
- arxiv url: http://arxiv.org/abs/2402.01352v1
- Date: Fri, 2 Feb 2024 12:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 15:41:04.262469
- Title: Describing Images $\textit{Fast and Slow}$: Quantifying and Predicting
the Variation in Human Signals during Visuo-Linguistic Processes
- Title(参考訳): Image $\textit{Fast and Slow}$: Visuo-Linguistic Processsにおける人間の信号の変動の定量と予測
- Authors: Ece Takmaz, Sandro Pezzelle, Raquel Fern\'andez
- Abstract要約: 本研究では,ビジュオ言語信号の変動の性質について検討し,それらが相互に相関していることを確認した。
この結果から,画像の特性から変化が生じると仮定し,事前学習された視覚エンコーダによって符号化された画像表現が,そのような変化を捉えることができるかどうかを考察する。
以上の結果から, 事前学習モデルでは, 刺激が複雑になる要因や, 人間の出力の変動要因について, 偏見が欠如していることが示唆された。
- 参考スコア(独自算出の注目度): 4.518404103861656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an intricate relation between the properties of an image and how
humans behave while describing the image. This behavior shows ample variation,
as manifested in human signals such as eye movements and when humans start to
describe the image. Despite the value of such signals of visuo-linguistic
variation, they are virtually disregarded in the training of current pretrained
models, which motivates further investigation. Using a corpus of Dutch image
descriptions with concurrently collected eye-tracking data, we explore the
nature of the variation in visuo-linguistic signals, and find that they
correlate with each other. Given this result, we hypothesize that variation
stems partly from the properties of the images, and explore whether image
representations encoded by pretrained vision encoders can capture such
variation. Our results indicate that pretrained models do so to a
weak-to-moderate degree, suggesting that the models lack biases about what
makes a stimulus complex for humans and what leads to variations in human
outputs.
- Abstract(参考訳): 画像の性質と、画像の記述中に人間がどう振る舞うかとの間には複雑な関係がある。
この行動は、眼球運動などの人間の信号や、そのイメージが説明され始めると、多くの変化を示す。
このようなビジュオ言語的変動の信号の値にもかかわらず、それらは現在の事前学習モデルの訓練において事実上無視され、さらなる研究の動機となっている。
同時収集された視線追跡データを用いたオランダ画像記述のコーパスを用いて,視覚言語信号の変動の性質を調べ,相互に相関することを示す。
この結果から,画像の特性が変動の原因であると考え,事前学習した視覚エンコーダで符号化された画像表現がそのような変動を捉えることができるかどうかを考察する。
以上の結果から, 事前学習モデルでは, 刺激が複雑になる要因や, 人間の出力の変動要因について, 偏見が欠如していることが示唆された。
関連論文リスト
- Unveiling the Truth: Exploring Human Gaze Patterns in Fake Images [34.02058539403381]
我々は、人間の意味的知識を活用して、偽画像検出のフレームワークに含まれる可能性を調べる。
予備的な統計的分析により、人間が本物の画像や変化した画像をどのように知覚するかの特徴的なパターンを探索する。
論文 参考訳(メタデータ) (2024-03-13T19:56:30Z) - Multi-Domain Norm-referenced Encoding Enables Data Efficient Transfer
Learning of Facial Expression Recognition [62.997667081978825]
本稿では,表情認識における伝達学習のための生物学的メカニズムを提案する。
提案アーキテクチャでは,人間の脳が,頭部形状の異なる表情を自然に認識する方法について解説する。
本モデルでは, FERGデータセットの分類精度92.15%を極端に高いデータ効率で達成する。
論文 参考訳(メタデータ) (2023-04-05T09:06:30Z) - An Extended Study of Human-like Behavior under Adversarial Training [11.72025865314187]
ニューラルネットワークの形状バイアスへのシフトは, 対角訓練によって増加することを示す。
また、周波数の観点からこの現象を説明できる。
論文 参考訳(メタデータ) (2023-03-22T15:47:16Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Learning Motion-Dependent Appearance for High-Fidelity Rendering of
Dynamic Humans from a Single Camera [49.357174195542854]
外観のダイナミクスを学ぶ上で重要な課題は、違法に大量の観測を必要とすることである。
本手法は,1つの視点映像から,身体のポーズや新しいビューを時間的に協調的に生成できることを示す。
論文 参考訳(メタデータ) (2022-03-24T00:22:03Z) - Perception Over Time: Temporal Dynamics for Robust Image Understanding [5.584060970507506]
ディープラーニングは、狭く特定の視覚タスクにおいて、人間レベルのパフォーマンスを上回る。
人間の視覚知覚は入力刺激の変化に対して、桁違いに頑丈である。
静的画像理解に時間力学を取り入れた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T21:11:59Z) - Image-to-image Transformation with Auxiliary Condition [0.0]
本稿では,CycleGANのトレーニングにおけるポーズや対象のタイプなど,被験者のラベル情報を導入し,ラベルに配慮したトランスフォーメーションモデルを構築することを提案する。
我々は,SVHNからMNISTへのデジタル画像変換と,シミュレートされた実画像から実画像への監視カメラ画像変換実験を通じて,ラベル・シクレガンと呼ばれる手法の評価を行った。
論文 参考訳(メタデータ) (2021-06-25T15:33:11Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z) - Seeing eye-to-eye? A comparison of object recognition performance in
humans and deep convolutional neural networks under image manipulation [0.0]
本研究では,ヒトとフィードフォワードニューラルネットワークの視覚コア物体認識性能の行動比較を目的とした。
精度分析の結果、人間はDCNNを全ての条件で上回るだけでなく、形状や色の変化に対する強い堅牢性も示している。
論文 参考訳(メタデータ) (2020-07-13T10:26:30Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。