論文の概要: Are Video Generation Models Geographically Fair? An Attraction-Centric Evaluation of Global Visual Knowledge
- arxiv url: http://arxiv.org/abs/2601.18698v1
- Date: Mon, 26 Jan 2026 17:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.958521
- Title: Are Video Generation Models Geographically Fair? An Attraction-Centric Evaluation of Global Visual Knowledge
- Title(参考訳): 映像生成モデルは地理的に公正か? : グローバルビジュアル知識の抽出中心的評価
- Authors: Xiao Liu, Jiawei Zhang,
- Abstract要約: 本研究では、アトラクション中心の評価により、テキスト・ビデオ・モデルの地理的・地理的に根ざした視覚的知識について検討する。
多様な地域の観光名所を忠実に合成する方法を評価するための体系的枠組みであるジオ・アトラクション・ランドマーク・プロブリング(GAP)を紹介した。
GAPは、グローバルな構造的アライメント、きめ細かいキーポイントベースのアライメント、視覚言語モデル判断など、アトラクション固有の知識から全体的なビデオ品質を遠ざける補完的な指標を統合している。
- 参考スコア(独自算出の注目度): 10.25143146695869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-video generation have produced visually compelling results, yet it remains unclear whether these models encode geographically equitable visual knowledge. In this work, we investigate the geo-equity and geographically grounded visual knowledge of text-to-video models through an attraction-centric evaluation. We introduce Geo-Attraction Landmark Probing (GAP), a systematic framework for assessing how faithfully models synthesize tourist attractions from diverse regions, and construct GEOATTRACTION-500, a benchmark of 500 globally distributed attractions spanning varied regions and popularity levels. GAP integrates complementary metrics that disentangle overall video quality from attraction-specific knowledge, including global structural alignment, fine-grained keypoint-based alignment, and vision-language model judgments, all validated against human evaluation. Applying GAP to the state-of-the-art text-to-video model Sora 2, we find that, contrary to common assumptions of strong geographic bias, the model exhibits a relatively uniform level of geographically grounded visual knowledge across regions, development levels, and cultural groupings, with only weak dependence on attraction popularity. These results suggest that current text-to-video models express global visual knowledge more evenly than expected, highlighting both their promise for globally deployed applications and the need for continued evaluation as such systems evolve.
- Abstract(参考訳): 近年のテキスト・ビデオ生成の進歩は視覚的に魅力的な結果をもたらしているが、これらのモデルが地理的に等価な視覚知識を符号化するかどうかは不明である。
そこで本研究では,アトラクション中心の評価を通じて,テキスト・ビデオ・モデルの地理的・地理的な視覚的知識について検討する。
多様な地域から観光地を忠実に合成する方法を評価するための体系的枠組みであるGeo-Attraction Landmark Probing (GAP)を導入し、地域や人気レベルにまたがるグローバルに分布する500のアトラクションのベンチマークであるGEOATTRACTION-500を構築した。
GAPは、グローバルな構造的アライメント、きめ細かいキーポイントベースのアライメント、視覚言語によるモデル判断など、アトラクション固有の知識から、全体的なビデオ品質を阻害する補完的な指標を統合している。
GAPを最先端のテキスト・ビデオモデルであるSora 2に適用すると、地理的偏見が強いという一般的な仮定とは裏腹に、地域、開発レベル、文化的グループ間の地理的に基盤付けられた視覚的知識の比較的均一なレベルが示され、アトラクションの人気に弱いだけであることが分かる。
これらの結果から,現在のテキスト・ビデオ・モデルは期待以上にグローバルな視覚的知識を表現し,グローバルに展開するアプリケーションへの期待と,そのようなシステムが進化するにつれて継続的な評価の必要性を浮き彫りにしている。
関連論文リスト
- Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。
我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文 参考訳(メタデータ) (2025-10-13T01:12:21Z) - GeoSURGE: Geo-localization using Semantic Fusion with Hierarchy of Geographic Embeddings [3.43519422766841]
我々は、クエリ画像の視覚的表現と学習された地理的表現との整合性として、地理的ローカライゼーションを定式化する。
主要な実験では、5つのベンチマークデータセットで測定された25のメトリクスのうち22のベストが改善された。
論文 参考訳(メタデータ) (2025-10-01T20:39:48Z) - GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains [20.788130896943663]
Geo Reason Enhancement (GRE) Suiteは、解釈可能な位置推論のための構造化推論チェーンを備えたビジュアル言語モデルを拡張する新しいフレームワークである。
まず、GRE30Kという、きめ細かい視覚的・文脈的分析を容易にするために設計された高品質なジオローカライゼーション推論データセットを紹介する。
次に,シーン属性,局所的詳細,意味的特徴を段階的に推測する多段階推論手法を用いて,GREモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T13:48:57Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - Measuring Geographic Diversity of Foundation Models with a Natural Language--based Geo-guessing Experiment on GPT-4 [5.534517268996598]
我々は,その地理的多様性を研究するために,多モーダル大言語モデルファミリーの最先端の代表である GPT-4 について検討した。
自然言語によるジオゲスティング実験では,DBpedia の抽象表現を基礎構造コーパスとして用いて,GPT-4 が現在,いくつかの地理的特徴型について不十分な知識をコード化している可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-11T09:59:21Z) - Incorporating Geo-Diverse Knowledge into Prompting for Increased Geographical Robustness in Object Recognition [24.701574433327746]
地理に基づくオブジェクト知識のための大規模言語モデルを提案することの実現可能性について検討する。
我々は,地理的知識の正規化を提案し,ソースセットで訓練されたソフトプロンプトが未知のターゲットセットに一般化されることを保証する。
DollarStreetのベースラインの推進による精度の向上は、アフリカ/アジア/アメリカからのターゲットデータで+2.8/1.2/1.6、最も厳しいクラスでは+4.6である。
論文 参考訳(メタデータ) (2024-01-03T01:11:16Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - GIVL: Improving Geographical Inclusivity of Vision-Language Models with
Pre-Training Methods [62.076647211744564]
我々は地理包摂型視覚・言語事前学習モデルであるGIVLを提案する。
1) 類似のカテゴリにおける概念は独自の知識と視覚的特徴を持ち、2) 類似の視覚的特徴を持つ概念は、全く異なるカテゴリに該当する可能性がある。
GIVLは、同様のスケールのデータを事前訓練した類似サイズのモデルと比較して、最先端のSOTA(State-of-the-art)を達成し、ジオディバースなV&Lタスクにおけるよりバランスの取れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-01-05T03:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。