論文の概要: Three Laws of Statistical Linguistics Emerging in images
- arxiv url: http://arxiv.org/abs/2501.18620v1
- Date: Sun, 26 Jan 2025 16:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-09 05:18:34.894386
- Title: Three Laws of Statistical Linguistics Emerging in images
- Title(参考訳): 画像に現れる統計的言語学の3つの法則
- Authors: Ping-Rui Tsai, Chi-hsiang Wang, Yu-Cheng Liao, Tzay-Ming Hong,
- Abstract要約: VGG-19を用いて各カーネルからワードを定義し、グレースケール値が90%を超えるピクセル数を計算します。
我々は、Zipf、Heaps、Benfordの統計言語学の法則が、異なる画像を表すテキストを含む単語にも存在していることに驚いた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Images, as a product evolving alongside civilization, develop similarly to natural languages with the advancement of civilization. Not only are images abundant in daily life, but are also influenced by technology in shaping their forms, embodying various characteristics as they evolve in time. Language is a sequence of symbols that represents thoughts. While a written language is typically associated with the close integration of text and sound, as a combination of visual symbols and perception, the communicative power of image is no less significant. This is especially notable since 60% of the sensory input received by our central nervous system comes from vision. Given the symbolic system inherent in images, we are curious whether images can also exhibit the laws of statistical linguistics. To explore this, we begin with the relationship between human thought and visual perception to decode how images are formed by the latter mechanism. Building upon previous studies that established the high correlation between pre-trained deep convolutional neural networks and the human visual system, we use the VGG-19 to define words via each kernel and calculate the number of pixels with grayscale values greater than 90%. By (a) ranking words frequency, (b) randomizing the order of kernel appearances and performing the same word count accumulation, and (c) summing the word counts layer by layer, we are surprised to find that Zipf's, Heaps', and Benford's laws of statistical linguistics also exist in the words that comprises the text representing different images.
- Abstract(参考訳): 画像は文明とともに進化する製品であり、文明の発達とともに自然言語と同様に発達する。
日常生活に豊富な画像だけでなく、形を形作る技術の影響も受けており、時代とともに様々な特徴を具現化している。
言語は思考を表す記号の列である。
文字言語は通常、視覚記号と知覚の組み合わせとして、テキストと音声の密接な統合に関連しているが、画像のコミュニケーション力はそれほど重要ではない。
中枢神経系からの感覚入力の60%は視覚によるものなので、これは特に注目に値する。
画像に固有の記号体系を考えると、画像が統計言語学の法則を示せるかどうかも疑問である。
これを探るため、人間の思考と視覚的知覚の関係から始め、後者のメカニズムによって画像がどのように形成されるのかを復号する。
事前学習した深部畳み込みニューラルネットワークと人間の視覚システムとの間に高い相関関係を確立する以前の研究に基づいて、VGG-19を用いて各カーネルを介して単語を定義し、グレースケールの値が90%を超えるピクセル数を計算した。
周辺
(a)単語の格付け頻度
b) カーネルの出現順序をランダム化し、同じ単語の累積を実行すること
(c) 単語を層ごとに数えると、Zipf、Heaps、Benfordの統計言語学の法則が、異なる画像を表すテキストを構成する単語にも存在していることに驚きます。
関連論文リスト
- Probing the contents of semantic representations from text, behavior, and brain data using the psychNorms metabase [0.0]
テキスト,行動,脳データから得られた意味表現の類似性と相違について検討した。
我々は、人間の表現や行動を把握するためのテキストの重要な補完として行動を確立する。
論文 参考訳(メタデータ) (2024-12-06T10:44:20Z) - Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Computer Vision Datasets and Models Exhibit Cultural and Linguistic
Diversity in Perception [28.716435050743957]
異なる文化的背景を持つ人々が、同じ視覚刺激を視る場合でも、いかに異なる概念を観察するかを考察する。
同じ画像に対して7つの言語で生成されたテキスト記述を比較することで,意味内容と言語表現に有意な差が認められた。
私たちの研究は、コンピュータビジョンコミュニティにおける人間の知覚の多様性を考慮し、受け入れる必要性に注目しています。
論文 参考訳(メタデータ) (2023-10-22T16:51:42Z) - Multimodal Neurons in Pretrained Text-Only Transformers [52.20828443544296]
視覚表現を対応するテキストに変換する「マルチモーダルニューロン」を同定する。
マルチモーダルニューロンは入力を横断する特定の視覚概念で動作し、画像キャプションに系統的な因果効果を有することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:27:12Z) - Exploring Affordance and Situated Meaning in Image Captions: A
Multimodal Analysis [1.124958340749622]
Flickr30kデータセットのイメージに5つの知覚特性(Affordance, Perceptual Salience, Object Number, Cue Gazeing, Ecological Niche Association (ENA))を付加した注釈を付ける。
以上の結果より,ギブソニアの空白画像は,テコールの空白画像と比較して,「保持動詞」と「コンテナ名詞」を含む字幕の頻度が高いことが明らかとなった。
論文 参考訳(メタデータ) (2023-05-24T01:30:50Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Comprehending and Ordering Semantics for Image Captioning [124.48670699658649]
我々はトランスフォーマー型構造,すなわちComprehending and Ordering Semantics Networks (COS-Net) の新たなレシピを提案する。
COS-Netは、豊富なセマンティックコンプレッディングと学習可能なセマンティックオーダリングプロセスを単一のアーキテクチャに統合する。
論文 参考訳(メタデータ) (2022-06-14T15:51:14Z) - Evaluating language-biased image classification based on semantic
representations [13.508894957080777]
人間は、画像-ワード干渉として知られる単語埋め込み画像に対して、言語バイアスの画像認識を示す。
人間と同様、最近の人工モデルはテキストや画像、例えばOpenAI CLIPで共同で訓練されており、言語バイアスの画像分類を示している。
論文 参考訳(メタデータ) (2022-01-26T15:46:36Z) - Emergence of Machine Language: Towards Symbolic Intelligence with Neural
Networks [73.94290462239061]
本稿では、ニューラルネットワークを用いてシンボルとコネクショナリズムの原理を組み合わせることで、離散表現を導出することを提案する。
対話型環境とタスクを設計することにより、機械が自発的で柔軟でセマンティックな言語を生成できることを実証した。
論文 参考訳(メタデータ) (2022-01-14T14:54:58Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。