論文の概要: Analyzing The Language of Visual Tokens
- arxiv url: http://arxiv.org/abs/2411.05001v1
- Date: Thu, 07 Nov 2024 18:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:40:31.331627
- Title: Analyzing The Language of Visual Tokens
- Title(参考訳): ビジュアルトークンの言語分析
- Authors: David M. Chan, Rodolfo Corona, Joonyong Park, Cheol Jun Cho, Yutong Bai, Trevor Darrell,
- Abstract要約: 我々は、離散的な視覚言語を分析するために、自然言語中心のアプローチをとる。
トークンの高度化はエントロピーの増大と圧縮の低下を招き,トークンが主にオブジェクト部品を表すことを示す。
また、視覚言語には結合的な文法構造が欠如していることが示され、自然言語と比較して難易度が高く、階層構造が弱いことが判明した。
- 参考スコア(独自算出の注目度): 48.62180485759458
- License:
- Abstract: With the introduction of transformer-based models for vision and language tasks, such as LLaVA and Chameleon, there has been renewed interest in the discrete tokenized representation of images. These models often treat image patches as discrete tokens, analogous to words in natural language, learning joint alignments between visual and human languages. However, little is known about the statistical behavior of these visual languages - whether they follow similar frequency distributions, grammatical structures, or topologies as natural languages. In this paper, we take a natural-language-centric approach to analyzing discrete visual languages and uncover striking similarities and fundamental differences. We demonstrate that, although visual languages adhere to Zipfian distributions, higher token innovation drives greater entropy and lower compression, with tokens predominantly representing object parts, indicating intermediate granularity. We also show that visual languages lack cohesive grammatical structures, leading to higher perplexity and weaker hierarchical organization compared to natural languages. Finally, we demonstrate that, while vision models align more closely with natural languages than other models, this alignment remains significantly weaker than the cohesion found within natural languages. Through these experiments, we demonstrate how understanding the statistical properties of discrete visual languages can inform the design of more effective computer vision models.
- Abstract(参考訳): LLaVAやChameleonのような視覚と言語タスクのためのトランスフォーマーベースのモデルの導入により、画像の離散トークン化表現に新たな関心が寄せられている。
これらのモデルはしばしば、画像パッチを自然言語の単語に類似した離散トークンとして扱い、視覚と人間の言語間の共同調整を学ぶ。
しかし、これらの視覚言語の統計的挙動については、類似の頻度分布、文法構造、あるいは自然言語としてのトポロジに従おうとも、ほとんど分かっていない。
本稿では、離散的な視覚言語を自然言語中心で分析し、顕著な類似点と基本的な相違点を明らかにする。
視覚言語はZipfian分布に従属するが、高いトークン革新はエントロピーと低い圧縮を促進する。
また、視覚言語には結合的な文法構造が欠如していることが示され、自然言語と比較して難易度が高く、階層構造が弱いことが判明した。
最後に、視覚モデルは他のモデルよりも自然言語とより密接に一致しているが、このアライメントは自然言語の凝集度よりも著しく弱い。
これらの実験を通じて、離散視覚言語の統計的特性の理解が、より効果的なコンピュータビジョンモデルの設計にどのように役立つかを実証する。
関連論文リスト
- MulCogBench: A Multi-modal Cognitive Benchmark Dataset for Evaluating
Chinese and English Computational Language Models [44.74364661212373]
本稿では、中国語と英語のネイティブ参加者から収集した認知ベンチマークであるMulCogBenchを提案する。
主観的意味評価、視線追跡、機能的磁気共鳴画像(fMRI)、脳磁図(MEG)など、さまざまな認知データを含んでいる。
その結果、言語モデルは人間の認知データと大きな類似性を共有しており、類似性パターンはデータモダリティと刺激の複雑さによって変調されることがわかった。
論文 参考訳(メタデータ) (2024-03-02T07:49:57Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Oracle Linguistic Graphs Complement a Pretrained Transformer Language
Model: A Cross-formalism Comparison [13.31232311913236]
言語グラフ表現が神経言語モデリングを補完し改善する程度について検討する。
全体としては、セマンティックな選挙区構造は言語モデリングのパフォーマンスに最も有用である。
論文 参考訳(メタデータ) (2021-12-15T04:29:02Z) - Controlled Evaluation of Grammatical Knowledge in Mandarin Chinese
Language Models [22.57309958548928]
構造的監督が言語モデルの文法的依存の学習能力を向上させるかどうかを検討する。
LSTM、リカレントニューラルネットワーク文法、トランスフォーマー言語モデル、および異なるサイズのデータセットに対する生成解析モデルをトレーニングする。
構造的監督がコンテンツ間のシナティクス状態の表現に役立ち、低データ設定における性能向上に役立つという示唆的な証拠が得られます。
論文 参考訳(メタデータ) (2021-09-22T22:11:30Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。