Fugu-MT 論文翻訳(概要): A Multimodal RAG Framework for Housing Damage Assessment: Collaborative Optimization of Image Encoding and Policy Vector Retrieval

論文の概要: A Multimodal RAG Framework for Housing Damage Assessment: Collaborative Optimization of Image Encoding and Policy Vector Retrieval

arxiv url: http://arxiv.org/abs/2509.09721v1
Date: Wed, 10 Sep 2025 01:58:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-15 16:03:07.849293
Title: A Multimodal RAG Framework for Housing Damage Assessment: Collaborative Optimization of Image Encoding and Policy Vector Retrieval
Title（参考訳）: 住宅被害評価のためのマルチモーダルRAGフレームワーク:画像エンコーディングとポリシーベクトル検索の協調最適化
Authors: Jiayi Miao, Dingxin Lu, Zhuqi Wang,
Abstract要約: 自然災害後、住宅被害の正確な評価は、保険請求の応答と資源の計画にとって重要である。本研究では,MM-RAG(Multimodal retrieve-augmented Generation)フレームワークを提案する。このフレームワークはエンドツーエンドのトレーニングを受け、比較損失、検索損失、生成損失を組み合わせてマルチタスク最適化の目標を形成する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: After natural disasters, accurate evaluations of damage to housing are important for insurance claims response and planning of resources. In this work, we introduce a novel multimodal retrieval-augmented generation (MM-RAG) framework. On top of classical RAG architecture, we further the framework to devise a two-branch multimodal encoder structure that the image branch employs a visual encoder composed of ResNet and Transformer to extract the characteristic of building damage after disaster, and the text branch harnesses a BERT retriever for the text vectorization of posts as well as insurance policies and for the construction of a retrievable restoration index. To impose cross-modal semantic alignment, the model integrates a cross-modal interaction module to bridge the semantic representation between image and text via multi-head attention. Meanwhile, in the generation module, the introduced modal attention gating mechanism dynamically controls the role of visual evidence and text prior information during generation. The entire framework takes end-to-end training, and combines the comparison loss, the retrieval loss and the generation loss to form multi-task optimization objectives, and achieves image understanding and policy matching in collaborative learning. The results demonstrate superior performance in retrieval accuracy and classification index on damage severity, where the Top-1 retrieval accuracy has been improved by 9.6%.
Abstract（参考訳）: 自然災害後、住宅被害の正確な評価は、保険請求の応答と資源の計画にとって重要である。本研究では,MM-RAG(Multimodal retrieve-augmented Generation)フレームワークを提案する。従来のRAGアーキテクチャ上には、災害後の建物被害の特徴を抽出するために、画像ブランチがResNetとTransformerで構成されたビジュアルエンコーダを用いて、2ブランチのマルチモーダルエンコーダ構造を考案するフレームワークも用意されており、テキストブランチは、ポストのテキストベクトル化と保険ポリシー、検索可能な復元指標の構築のためにBERT検索器を利用する。クロスモーダルなセマンティックアライメントを課すため、マルチヘッドアテンションを通じて画像とテキスト間のセマンティック表現をブリッジするために、クロスモーダルな相互作用モジュールを統合する。一方、生成モジュールでは、導入したモーダルアテンションゲーティング機構が生成時の視覚的エビデンスとテキスト先行情報の役割を動的に制御する。フレームワーク全体はエンドツーエンドのトレーニングを受け、比較損失、検索損失、生成損失を組み合わせてマルチタスク最適化目標を作成し、協調学習における画像理解とポリシーマッチングを実現する。その結果,Top-1検索精度が9.6%向上した被害重症度に対して,検索精度と分類指標が優れていた。

関連論文リスト

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation [35.07704681580893]
本稿では,光学文字認識(OCR)をクエリ駆動オンデマンド抽出システムに変換する動的解析パラダイムであるAgenticOCRを紹介する。 AgenticOCRは、文書レイアウトを「画像で考える」方法で自律的に分析することにより、関心のある領域を特定し、選択的に認識する。 AgenticOCRは、ビジュアルドキュメントRAGスタックの"3番目のビルディングブロック"として機能する可能性がある。
論文参考訳（メタデータ） (2026-02-27T16:09:38Z)
Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文参考訳（メタデータ） (2026-01-27T00:46:08Z)
Generalized Contrastive Learning for Universal Multimodal Retrieval [53.70202081784898]
クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
論文参考訳（メタデータ） (2025-09-30T01:25:04Z)
Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。 IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5～10ポイント向上した。
論文参考訳（メタデータ） (2025-09-08T17:56:23Z)
CMRAG: Co-modality-based visual document retrieval and question answering [21.016544020685668]
共同モダリティベースのRAG(RAG)フレームワークは、テキストや画像を利用してより正確な検索と生成を行うことができる。我々のフレームワークは、複数のビジュアル文書質問応答(VDQA)ベンチマークにおいて、単一モダリティベースのRAGを一貫して上回ります。
論文参考訳（メタデータ） (2025-09-02T09:17:57Z)
DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy [15.729826041347144]
RISを認知と認知という2つの重要な構成要素に分解する新しいフレームワークであるDeRISを提案する。以上の結果から,従来のモデルでは知覚障害ではなく,マルチモーダル認知能力が不十分であることが示唆された。本稿では,ターゲット存在判定に関連する長期分布問題に対処するため,単純な非参照型サンプル変換データ拡張を提案する。
論文参考訳（メタデータ） (2025-07-02T14:14:35Z)
Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval [15.503629941274621]
本研究では,Representation Discrepancy Bridging (RDB) 法を提案し,Remote Image-Text Retrieval (RSITR) タスクを提案する。 RSICDとRSITMDデータセットの実験により、提案手法はmR測定値の6%-11%の改善を達成している。
論文参考訳（メタデータ） (2025-05-22T14:59:30Z)
A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文参考訳（メタデータ） (2025-05-01T02:40:30Z)
SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs [70.79124435220695]
セマンティック強化型Cross-mOdal Retrievalフレームワーク(SemCORE)を提案する。まず,自然言語の理解と生成に最適化された生成モデルとターゲット識別子を効果的に整合させる構造化自然言語識別器(SID)を構築した。次に、粒度の細かいターゲット識別を可能にするジェネレーティブ・セマンティック・検証(GSV)戦略を導入する。
論文参考訳（メタデータ） (2025-04-17T17:59:27Z)
UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文参考訳（メタデータ） (2024-02-12T19:39:26Z)
PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-08-08T01:55:44Z)
Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。 MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2021-02-04T18:57:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。