Fugu-MT 論文翻訳(概要): Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

論文の概要: Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

arxiv url: http://arxiv.org/abs/2604.11490v1
Date: Mon, 13 Apr 2026 13:56:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:16.58019
Title: Anthropogenic Regional Adaptation in Multimodal Vision-Language Model
Title（参考訳）: マルチモーダルビジョンランゲージモデルにおける人為的地域適応
Authors: Samuel Cahyawijaya, Peerat Limkonchotiwat, Tack Hwa Wong, Hitesh Laxmichand Patel, Amit Agarwal, Manuel Antonio Rufino, Carlos Rafael Catalan, Muhammad Reza Qorib, Vicky Feliren, Holy Lovenia, Aye Hninn Khine, Frederikus Hudi, David Anugraha, Alham Fikri Aji, Romrawin Chumpu, Viet-Thanh Pham, Minghan Wang, Mohamed Fazli Imam, Ruochen Zhang, Joseph Marvin Imperial, Do Xuan Long, Musa Izzanardi Wijanarko, Joel Ruben Antony Moniz, Patrick Amadeus Irawan, Hanif Muhammad Zhafran, Isaiah Flores, Ira Salsabila, Jun Kevin, Jostin Jerico Rosal, Patricia Nicole Monderin, Kun Kerdthaisong, Ahmad Mustafid, My Chiffon Nguyen, Natchapon Jongwiriyanurak, Siva Worajitwannakul, Haochen Li, Adrian Xuan Wei Lim, Bin Wang, Muhammad Ravi Shulthan Habibi, Lynnette Hui Xian Ng, Mithil Bangera, Yeshil Bangera, Priyaranjan Pattnayak, Dun Li Chan, Sherissa Caren Djuniwar, Hee Ming Shan,
Abstract要約: 我々は,特定の地域コンテキストに対するモデル関連性を最適化することを目的とした,新しいパラダイムである人為的地域適応を導入する。地域データフィルタリングとモデルマージを利用したGG-EZ(Geographical-Generalization-made-easy)という,単純かつ効果的な適応手法を提案する。本研究は,多様な領域における多モード視覚言語モデルの適用性に関する基礎パラダイムとして,人類形成的地域アライメントを確立した。
参考スコア（独自算出の注目度）: 38.994558825737215
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: While the field of vision-language (VL) has achieved remarkable success in integrating visual and textual information across multiple languages and domains, there is still no dedicated framework for assessing human-centric alignment in vision-language systems. We offer two contributions to address this gap. First, we introduce Anthropogenic Regional Adaptation: a novel paradigm that aims to optimize model relevance to specific regional contexts while ensuring the retention of global generalization capabilities. Second, we present a simple, but effective adaptation method named Geographical-generalization-made-easy (GG-EZ), which utilizes regional data filtering and model merging. Through comprehensive experiments on 3 VL architectures: large vision-language models, text-to-image diffusion models, and vision-language embedding models, and a case study in Southeast Asia (SEA) regional adaptation, we demonstrate the importance of Anthropogenic Regional Adaptation and the effectiveness of GG-EZ, showing 5-15% gains in cultural relevance metrics across SEA while maintaining over 98% of global performance and even occasionally surpassing it. Our findings establish Anthropogenic Regional Alignment as a foundational paradigm towards applicability of multimodal vision-language models in diverse regions and demonstrate a simple-yet-effective baseline method that optimizes regional value alignment while preserving global generalization.
Abstract（参考訳）: 視覚言語(VL)の分野は、複数の言語やドメインにまたがる視覚情報とテキスト情報の統合において大きな成功を収めてきたが、視覚言語システムにおける人間中心のアライメントを評価するための専用のフレームワークはいまだに存在しない。このギャップに対処するための2つのコントリビューションを提供します。まず,グローバルな一般化能力の維持を確保しつつ,特定の地域コンテキストに対するモデル関連性を最適化することを目的とした新しいパラダイムである,人類形成的地域適応を導入する。第2に、地域データフィルタリングとモデルマージを利用したGG-EZ(Geographical-Generalization-made-easy)という、単純だが効果的な適応手法を提案する。大規模視覚言語モデル, テキスト・ツー・イメージ拡散モデル, 視覚言語埋め込みモデル, 東南アジアにおける地域適応(SEA)のケーススタディを通じて, 人類学的地域適応の重要性とGG-EZの有効性を実証し, グローバルパフォーマンスの98%以上を維持しながら, SEA全体の文化関連指標の5～15%の上昇を示した。本研究は,多目的視覚言語モデルを多分野に適用するための基本パラダイムとして人類形成的地域アライメントを確立し,グローバルな一般化を維持しつつ,地域価値のアライメントを最適化する簡便なベースライン手法を実証する。

関連論文リスト

AINet: Anchor Instances Learning for Regional Heterogeneity in Whole Slide Image [61.54860340942449]
本稿では,その地域(地域)に代表されるインスタンスのコンパクトなサブセットであるアンカーインスタンス(AI)の概念を導入し,バッグ(グローバル)レベルで識別する。これらのAIは、地域間の相互作用をガイドする意味的な参照として機能し、地域多様性を維持しながら非差別的なパターンを修正する。我々は、単純な予測器を使用し、FLOPやパラメータを著しく少なくした最先端の手法を超越した、簡潔で効果的なフレームワークであるAINetを開発した。
論文参考訳（メタデータ） (2026-02-21T09:36:27Z)
HarmoCLIP: Harmonizing Global and Regional Representations in Contrastive Vision-Language Models [63.87966115136411]
HarmoCLIPはContrastive Language-Image Pre-training内のグローバルおよびリージョン表現を調和させるように設計された新しいフレームワークである。本研究では,地域レベルでの表現能力を高めるために,地域調整管理戦略を導入する。
論文参考訳（メタデータ） (2025-11-27T16:24:53Z)
Large Language Model with Region-guided Referring and Grounding for CT Report Generation [4.804660464589285]
既存の方法は主にボリューム全体のグローバルな特徴についてのみ考慮する。我々は,CTレポート生成のための第1の領域誘導参照およびグラウンドディングフレームワークであるReg2RGを提案する。
論文参考訳（メタデータ） (2024-11-23T12:25:06Z)
ED-SAM: An Efficient Diffusion Sampling Approach to Domain Generalization in Vision-Language Foundation Models [32.186630465963795]
本稿では,視覚言語基盤モデルの一般化性を改善するために,ドメイン一般化(ED-SAM)に対する簡易かつ効率的な拡散サンプリング手法を提案する。 CC3M, CC12M, LAION400Mなど, 視覚言語による事前学習データセットのスケールに関する実験結果は, 常に最先端のパフォーマンスを示している。
論文参考訳（メタデータ） (2024-06-03T15:27:28Z)
Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文参考訳（メタデータ） (2024-04-10T16:44:11Z)
RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文参考訳（メタデータ） (2024-03-04T18:58:08Z)
GIVL: Improving Geographical Inclusivity of Vision-Language Models with Pre-Training Methods [62.076647211744564]
我々は地理包摂型視覚・言語事前学習モデルであるGIVLを提案する。 1) 類似のカテゴリにおける概念は独自の知識と視覚的特徴を持ち、2) 類似の視覚的特徴を持つ概念は、全く異なるカテゴリに該当する可能性がある。 GIVLは、同様のスケールのデータを事前訓練した類似サイズのモデルと比較して、最先端のSOTA(State-of-the-art)を達成し、ジオディバースなV&Lタスクにおけるよりバランスの取れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-01-05T03:43:45Z)
Domain Adaptive Semantic Segmentation with Regional Contrastive Consistency Regularization [19.279884432843822]
本稿では,領域適応型セマンティックセマンティックセグメンテーションのための局所コントラスト整合正規化(RCCR)と呼ばれる,新しいエンドツーエンドのトレーニング可能なアプローチを提案する。私たちの中核となる考え方は、異なる画像の同じ位置から抽出された類似の地域的特徴を取り除き、その一方、2つの画像の異なる位置から特徴を分離することです。
論文参考訳（メタデータ） (2021-10-11T11:45:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。