論文の概要: Platonic Representations for Poverty Mapping: Unified Vision-Language Codes or Agent-Induced Novelty?
- arxiv url: http://arxiv.org/abs/2508.01109v1
- Date: Fri, 01 Aug 2025 23:07:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.715122
- Title: Platonic Representations for Poverty Mapping: Unified Vision-Language Codes or Agent-Induced Novelty?
- Title(参考訳): 貧困マッピングのためのプラトン表現:統一視覚言語コードかエージェント誘発新奇か?
- Authors: Satiyabooshan Murugaboopathy, Connor T. Jerzak, Adel Daoud,
- Abstract要約: 本研究では、家庭の富のような社会経済指標が、衛星画像やインターネットソーステキストに復元可能なインプリントを残しているかどうかを検討する。
我々は5つのパイプラインを通して家庭の富を予測するマルチモーダル・フレームワークを開発した。
- 参考スコア(独自算出の注目度): 3.4137115855910762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate whether socio-economic indicators like household wealth leave recoverable imprints in satellite imagery (capturing physical features) and Internet-sourced text (reflecting historical/economic narratives). Using Demographic and Health Survey (DHS) data from African neighborhoods, we pair Landsat images with LLM-generated textual descriptions conditioned on location/year and text retrieved by an AI search agent from web sources. We develop a multimodal framework predicting household wealth (International Wealth Index) through five pipelines: (i) vision model on satellite images, (ii) LLM using only location/year, (iii) AI agent searching/synthesizing web text, (iv) joint image-text encoder, (v) ensemble of all signals. Our framework yields three contributions. First, fusing vision and agent/LLM text outperforms vision-only baselines in wealth prediction (e.g., R-squared of 0.77 vs. 0.63 on out-of-sample splits), with LLM-internal knowledge proving more effective than agent-retrieved text, improving robustness to out-of-country and out-of-time generalization. Second, we find partial representational convergence: fused embeddings from vision/language modalities correlate moderately (median cosine similarity of 0.60 after alignment), suggesting a shared latent code of material well-being while retaining complementary details, consistent with the Platonic Representation Hypothesis. Although LLM-only text outperforms agent-retrieved data, challenging our Agent-Induced Novelty Hypothesis, modest gains from combining agent data in some splits weakly support the notion that agent-gathered information introduces unique representational structures not fully captured by static LLM knowledge. Third, we release a large-scale multimodal dataset comprising more than 60,000 DHS clusters linked to satellite images, LLM-generated descriptions, and agent-retrieved texts.
- Abstract(参考訳): 本研究では、家庭の富のような社会経済指標が、衛星画像(物理的特徴を捉えた)やインターネットソーステキスト(歴史的・経済的な物語を反映した)に復元可能なインプリントを残しているかどうかを検討する。
アフリカ地域のDHS(Demographic and Health Survey)データを用いて、Landsatの画像と、位置/年を条件としたLLM生成のテキスト記述と、WebソースからAI検索エージェントによって検索されたテキストをペアリングする。
我々は5つのパイプラインを通して家庭の富(国際ウェルス指数)を予測するマルチモーダル・フレームワークを開発する。
(i)衛星画像の視覚モデル
(ii)場所/年のみを用いたLLM
三 ウェブテキストの検索・合成を行うAIエージェント
(四)共同画像テキストエンコーダ
(v)すべての信号のアンサンブル。
私たちのフレームワークには3つのコントリビューションがあります。
第一に、視覚とエージェント/LLMテキストの融合は、富の予測における視覚のみのベースライン(例えば、外乱分割におけるR-2乗の0.77対0.63)よりも優れており、LLM内部知識はエージェント検索テキストよりも効果的であり、外乱への堅牢性や外乱の一般化を改善している。
第二に、視覚・言語モダリティからの融合埋め込みは、適度に相関し(アライメント後の中間コサイン類似度0.60)、相補的な詳細を維持しつつ、相補的な詳細を保ちながら、物質的幸福の共有潜時符号を示唆する。
LLMのみのテキストは、エージェント検索されたデータよりも優れており、エージェント誘導ノベルティ仮説に挑戦するが、エージェント収集された情報が静的LLMの知識によって完全に捉えられていないユニークな表現構造をもたらすという考え方を弱く支持する。
第3に、衛星画像、LCM生成記述、エージェント検索テキストにリンクした6万以上のDHSクラスタからなる大規模マルチモーダルデータセットをリリースする。
関連論文リスト
- Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm [34.02250139766494]
Contrastive Language-Image Pre-Training (CLIP)は、様々なベンチマークで有望なパフォーマンスを示す。
マルチモーダルなインターリーブド文書のかなりの量は、コントラッシブな視覚言語表現学習に使われていない。
高品質な画像やテキストを抽出するリアルタイムデータ抽出パイプラインを構築した。
そして,各画像と複数の意味的関連現実的テキストを効率的に関連付ける階層的検索手法を設計する。
リアルテキストと合成テキストを組み合わせたデータセットであるRealSynを構築し,15M,30M,100Mの3つのスケールで利用可能である。
論文 参考訳(メタデータ) (2025-02-18T03:58:38Z) - AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - VilBias: A Study of Bias Detection through Linguistic and Visual Cues , presenting Annotation Strategies, Evaluation, and Key Challenges [2.2751168722976587]
VLBiasは、最先端のLarge Language Models(LLM)とVision-Language Models(VLM)を活用して、ニュースコンテンツの言語的および視覚的バイアスを検出するフレームワークである。
本稿では,多様なニュースソースからのテキストコンテンツと対応する画像からなるマルチモーダルデータセットを提案する。
論文 参考訳(メタデータ) (2024-12-22T15:05:30Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - MuseCL: Predicting Urban Socioeconomic Indicators via Multi-Semantic Contrastive Learning [13.681538916025021]
MuseCLは、都市部の詳細なプロファイリングと社会経済予測のためのフレームワークである。
ストリートビューとリモートセンシング画像のためのコントラスト的なサンプルペアを構築し,人間の移動性に類似点を生かした。
これらの領域に埋め込まれたPOIテキストから,事前学習したテキストエンコーダを用いて意味的な洞察を抽出する。
論文 参考訳(メタデータ) (2024-06-23T09:49:41Z) - InternLM-XComposer: A Vision-Language Large Model for Advanced
Text-image Comprehension and Composition [111.65584066987036]
InternLM-XComposerは、高度な画像テキストの理解と合成を可能にする視覚言語による大規模モデルである。
シームレスに画像を統合するコヒーレントでコンテキスト的な記事を生成することができる。
画像がコンテンツを強化するテキスト内の領域をインテリジェントに識別し、最も適切な視覚的候補を自動的に挿入する。
論文 参考訳(メタデータ) (2023-09-26T17:58:20Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。