論文の概要: Describing Images $\textit{Fast and Slow}$: Quantifying and Predicting
the Variation in Human Signals during Visuo-Linguistic Processes
- arxiv url: http://arxiv.org/abs/2402.01352v1
- Date: Fri, 2 Feb 2024 12:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 15:41:04.262469
- Title: Describing Images $\textit{Fast and Slow}$: Quantifying and Predicting
the Variation in Human Signals during Visuo-Linguistic Processes
- Title(参考訳): Image $\textit{Fast and Slow}$: Visuo-Linguistic Processsにおける人間の信号の変動の定量と予測
- Authors: Ece Takmaz, Sandro Pezzelle, Raquel Fern\'andez
- Abstract要約: 本研究では,ビジュオ言語信号の変動の性質について検討し,それらが相互に相関していることを確認した。
この結果から,画像の特性から変化が生じると仮定し,事前学習された視覚エンコーダによって符号化された画像表現が,そのような変化を捉えることができるかどうかを考察する。
以上の結果から, 事前学習モデルでは, 刺激が複雑になる要因や, 人間の出力の変動要因について, 偏見が欠如していることが示唆された。
- 参考スコア(独自算出の注目度): 4.518404103861656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an intricate relation between the properties of an image and how
humans behave while describing the image. This behavior shows ample variation,
as manifested in human signals such as eye movements and when humans start to
describe the image. Despite the value of such signals of visuo-linguistic
variation, they are virtually disregarded in the training of current pretrained
models, which motivates further investigation. Using a corpus of Dutch image
descriptions with concurrently collected eye-tracking data, we explore the
nature of the variation in visuo-linguistic signals, and find that they
correlate with each other. Given this result, we hypothesize that variation
stems partly from the properties of the images, and explore whether image
representations encoded by pretrained vision encoders can capture such
variation. Our results indicate that pretrained models do so to a
weak-to-moderate degree, suggesting that the models lack biases about what
makes a stimulus complex for humans and what leads to variations in human
outputs.
- Abstract(参考訳): 画像の性質と、画像の記述中に人間がどう振る舞うかとの間には複雑な関係がある。
この行動は、眼球運動などの人間の信号や、そのイメージが説明され始めると、多くの変化を示す。
このようなビジュオ言語的変動の信号の値にもかかわらず、それらは現在の事前学習モデルの訓練において事実上無視され、さらなる研究の動機となっている。
同時収集された視線追跡データを用いたオランダ画像記述のコーパスを用いて,視覚言語信号の変動の性質を調べ,相互に相関することを示す。
この結果から,画像の特性が変動の原因であると考え,事前学習した視覚エンコーダで符号化された画像表現がそのような変動を捉えることができるかどうかを考察する。
以上の結果から, 事前学習モデルでは, 刺激が複雑になる要因や, 人間の出力の変動要因について, 偏見が欠如していることが示唆された。
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - Evaluating Vision-Language Models on Bistable Images [34.492117496933915]
本研究は,バイスタブル画像を用いた視覚言語モデルについて,これまでで最も広範に検討したものである。
私たちは手動で29枚のバイスタブル画像と関連するラベルを集め、明るさ、色調、回転で116種類の操作を行ないました。
以上の結果から,Idefics ファミリーと LLaVA1.5-13b のモデルを除いて,別の解釈が優先されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-29T18:04:59Z) - Unveiling the Truth: Exploring Human Gaze Patterns in Fake Images [34.02058539403381]
我々は、人間の意味的知識を活用して、偽画像検出のフレームワークに含まれる可能性を調べる。
予備的な統計的分析により、人間が本物の画像や変化した画像をどのように知覚するかの特徴的なパターンを探索する。
論文 参考訳(メタデータ) (2024-03-13T19:56:30Z) - Multi-Domain Norm-referenced Encoding Enables Data Efficient Transfer
Learning of Facial Expression Recognition [62.997667081978825]
本稿では,表情認識における伝達学習のための生物学的メカニズムを提案する。
提案アーキテクチャでは,人間の脳が,頭部形状の異なる表情を自然に認識する方法について解説する。
本モデルでは, FERGデータセットの分類精度92.15%を極端に高いデータ効率で達成する。
論文 参考訳(メタデータ) (2023-04-05T09:06:30Z) - An Extended Study of Human-like Behavior under Adversarial Training [11.72025865314187]
ニューラルネットワークの形状バイアスへのシフトは, 対角訓練によって増加することを示す。
また、周波数の観点からこの現象を説明できる。
論文 参考訳(メタデータ) (2023-03-22T15:47:16Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - Image-to-image Transformation with Auxiliary Condition [0.0]
本稿では,CycleGANのトレーニングにおけるポーズや対象のタイプなど,被験者のラベル情報を導入し,ラベルに配慮したトランスフォーメーションモデルを構築することを提案する。
我々は,SVHNからMNISTへのデジタル画像変換と,シミュレートされた実画像から実画像への監視カメラ画像変換実験を通じて,ラベル・シクレガンと呼ばれる手法の評価を行った。
論文 参考訳(メタデータ) (2021-06-25T15:33:11Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。