Fugu-MT 論文翻訳(概要): Emergent Visual-Semantic Hierarchies in Image-Text Representations

論文の概要: Emergent Visual-Semantic Hierarchies in Image-Text Representations

arxiv url: http://arxiv.org/abs/2407.08521v1
Date: Thu, 11 Jul 2024 14:09:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 17:10:08.264970
Title: Emergent Visual-Semantic Hierarchies in Image-Text Representations
Title（参考訳）: 画像テキスト表現における創発的ビジュアルセマンティック階層
Authors: Morris Alper, Hadar Averbuch-Elor,
Abstract要約: 既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
参考スコア（独自算出の注目度）: 13.300199242824934
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While recent vision-and-language models (VLMs) like CLIP are a powerful tool for analyzing text and images in a shared semantic space, they do not explicitly model the hierarchical nature of the set of texts which may describe an image. Conversely, existing multimodal hierarchical representation learning methods require costly training from scratch, failing to leverage the knowledge encoded by state-of-the-art multimodal foundation models. In this work, we study the knowledge of existing foundation models, finding that they exhibit emergent understanding of visual-semantic hierarchies despite not being directly trained for this purpose. We propose the Radial Embedding (RE) framework for probing and optimizing hierarchical understanding, and contribute the HierarCaps dataset, a benchmark facilitating the study of hierarchical knowledge in image--text representations, constructed automatically via large language models. Our results show that foundation VLMs exhibit zero-shot hierarchical understanding, surpassing the performance of prior models explicitly designed for this purpose. Furthermore, we show that foundation models may be better aligned to hierarchical reasoning via a text-only fine-tuning phase, while retaining pretraining knowledge.
Abstract（参考訳）: CLIPのような最近のビジョン・アンド・ランゲージモデル(VLM)は、共有セマンティック空間におけるテキストや画像を分析する強力なツールであるが、画像を記述する可能性のあるテキストの集合の階層的な性質を明示的にモデル化するものではない。逆に、既存のマルチモーダル階層的表現学習法は、最先端のマルチモーダル基盤モデルによって符号化された知識の活用に失敗し、スクラッチからコストのかかる訓練を必要とする。本研究では,既存の基盤モデルの知識を考察し,その目的のために直接訓練を受けていないにもかかわらず,視覚・意味的階層の創発的な理解を示すことを発見した。本稿では,階層的理解の探索と最適化のためのRadial Embedding(RE)フレームワークを提案し,画像テキスト表現における階層的知識の研究を容易にするベンチマークであるHierarCapsデータセットを,大規模言語モデルを介して自動構築する。以上の結果から,基礎VLMはゼロショット階層的理解を示し,この目的のために設計された先行モデルの性能を上回った。さらに, 基礎モデルは, 事前学習知識を維持しつつ, テキストのみの微調整フェーズによる階層的推論に適合する可能性が示唆された。

関連論文リスト

SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。 CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文参考訳（メタデータ） (2025-07-29T22:26:20Z)
Global and Local Entailment Learning for Natural World Imagery [7.874291189886743]
Radial Cross-Modal Embeddings (RCME) は、推移性強化エンテーメントの明示的なモデリングを可能にするフレームワークである。生活樹の階層を表現できる階層的視覚言語基盤モデルを構築した。
論文参考訳（メタデータ） (2025-06-26T17:05:06Z)
Language Model as Visual Explainer [72.88137795439407]
本稿では,木構造言語学的説明を用いた視覚モデル解釈のための体系的アプローチを提案する。提案手法は,属性を付与した木の形で人間に理解可能な説明を提供する。提案手法の有効性を確認するため,新しいベンチマークを導入し,厳密な評価を行う。
論文参考訳（メタデータ） (2024-12-08T20:46:23Z)
Learning Visual Hierarchies with Hyperbolic Embeddings [28.35250955426006]
本稿では,ハイパーボリック空間におけるユーザ定義のマルチレベル視覚階層を,明示的な階層ラベルを必要とせずに符号化できる学習パラダイムを提案する。階層的検索タスクの大幅な改善を示し、視覚的階層を捉える上でのモデルの有効性を示す。
論文参考訳（メタデータ） (2024-11-26T14:58:06Z)
Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。双曲型視覚言語モデルのための構成的包摂学習を提案する。数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文参考訳（メタデータ） (2024-10-09T14:12:50Z)
ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文参考訳（メタデータ） (2024-09-12T16:46:41Z)
Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文参考訳（メタデータ） (2024-03-21T17:58:56Z)
3VL: using Trees to teach Vision & Language models compositional concepts [45.718319397947056]
本稿では,Tree-augmented Vision-Language (3VL)モデルアーキテクチャとトレーニング手法を紹介する。テキスト統一のための単純な手法であるAnchorが、ニュアンス要素をフィルタするためにどのように使用できるかを示す。また、VLMマップ間の差分関連性比較を行うDiReにより、モデルの成功や失敗の説得力のある可視化を生成できることを示す。
論文参考訳（メタデータ） (2023-12-28T20:26:03Z)
Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文参考訳（メタデータ） (2023-05-06T03:57:05Z)
Progressive Tree-Structured Prototype Network for End-to-End Image Captioning [74.8547752611337]
本稿では,新しいプログレッシブツリー構造型プロトタイプネットワーク(PTSN)を提案する。 PTSNは、階層的テキスト意味論をモデル化することによって、適切な意味論で予測語の範囲を狭める最初の試みである。提案手法は,144.2%(シングルモデル),146.5%(4モデルのアンサンブル),141.4%(c5),143.9%(c40)のCIDErを公式オンラインテストサーバ上でスコアする。
論文参考訳（メタデータ） (2022-11-17T11:04:00Z)
Self-Supervised Image-to-Text and Text-to-Image Synthesis [23.587581181330123]
クロスモーダルな埋め込み空間を学習するための,新たな自己教師型深層学習手法を提案する。そこで本研究では,まず,StackGANベースのオートエンコーダモデルを用いて画像の高密度ベクトル表現と,LSTMベースのテキストオートエンコーダを用いた文レベルでの高密度ベクトル表現を得る。
論文参考訳（メタデータ） (2021-12-09T13:54:56Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。