論文の概要: MRD: Multi-resolution Retrieval-Detection Fusion for High-Resolution Image Understanding
- arxiv url: http://arxiv.org/abs/2512.02906v1
- Date: Tue, 02 Dec 2025 16:22:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.962684
- Title: MRD: Multi-resolution Retrieval-Detection Fusion for High-Resolution Image Understanding
- Title(参考訳): MRD:高分解能画像理解のための多分解能検索・検出融合
- Authors: Fan Yang, Kaihao Zhang,
- Abstract要約: 高解像度画像の理解は、マルチモーダル大言語モデル(MLLM)にとって重要な課題である。
本稿では,高分解能画像理解のためのトレーニングフリーフレームワークであるMRDを提案する。
対象オブジェクトのグローバルスケールでの直接位置決めを実現するために,オープン語彙オブジェクト検出(OVD)モデルを導入する。
- 参考スコア(独自算出の注目度): 24.861683100168673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding high-resolution images remains a significant challenge for multimodal large language models (MLLMs). Recent study address this issue by dividing the image into smaller crops and computing the semantic similarity between each crop and a query using a pretrained retrieval-augmented generation (RAG) model. The most relevant crops are then selected to localize the target object and suppress irrelevant information. However, such crop-based processing can fragment complete objects across multiple crops, thereby disrupting the computation of semantic similarity. In our experiments, we find that image crops of objects with different sizes are better handled at different resolutions. Based on this observation, we propose Multi-resolution Retrieval-Detection (MRD), a training-free framework for high-resolution image understanding. To address the issue of semantic similarity bias caused by objects being split across different image crops, we propose a multi-resolution semantic fusion method, which integrates semantic similarity maps obtained at different resolutions to produce more accurate semantic information and preserve the integrity of target objects. Furthermore, to achieve direct localization of target objects at a global scale, we introduce an open-vocalbulary object detection (OVD) model that identifies object regions using a sliding-window approach.Experiments on high-resolution image understanding benchmarks using different MLLMs demonstrate the effectiveness of our approach.
- Abstract(参考訳): 高解像度画像の理解は、マルチモーダル大言語モデル(MLLM)にとって重要な課題である。
近年の研究では、イメージを小さな作物に分割し、事前学習された検索強化世代(RAG)モデルを用いて、各作物とクエリ間の意味的類似性を計算することでこの問題に対処している。
次に、最も関連性の高い作物が選択され、対象物をローカライズし、無関係な情報を抑制する。
しかし、このような作物ベースの処理は、複数の作物にまたがる完全なオブジェクトを断片化することができるため、意味的類似性の計算を妨害することができる。
我々の実験では、異なる大きさの物体のイメージクロップが、異なる解像度でよりよく扱われていることが判明した。
そこで本研究では,高分解能画像理解のためのトレーニングフリーフレームワークであるMRDを提案する。
画像作物間で分割されたオブジェクトによる意味的類似性バイアスに対処するため,異なる解像度で得られた意味的類似性マップを統合して,より正確な意味情報を生成し,対象オブジェクトの整合性を維持する多分解能意味融合法を提案する。
さらに,対象物体のグローバルスケールでの直接局在化を実現するために,スライドウインドウ手法を用いて対象領域を識別するオープン語彙オブジェクト検出(OVD)モデルを導入する。
関連論文リスト
- IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection [70.02774285130238]
本稿では,リッチテキストセマンティクスと画像レベルの情報と画素レベルの情報の組み合わせについて検討する。
産業異常検出のためのMLLMに基づく新しいパラダイムであるIAD-GPTを提案する。
MVTec-ADとVisAデータセットの実験は、私たちの最先端のパフォーマンスを示しています。
論文 参考訳(メタデータ) (2025-10-16T02:48:05Z) - Marmot: Object-Level Self-Correction via Multi-Agent Reasoning [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を活用する、新しくて一般化可能なフレームワークである。
Marmotは、画像生成タスクにおけるオブジェクトカウント、属性割り当て、空間関係の精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - Efficient Feature Fusion for UAV Object Detection [9.632727117779178]
特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。
既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。
本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-29T20:39:16Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Hi-ResNet: Edge Detail Enhancement for High-Resolution Remote Sensing Segmentation [10.919956120261539]
高分解能リモートセンシング(HRS)セマンティックセマンティクスは、高分解能カバレッジ領域からキーオブジェクトを抽出する。
HRS画像内の同じカテゴリのオブジェクトは、多様な地理的環境におけるスケールと形状の顕著な違いを示す。
効率的なネットワーク構造を持つ高分解能リモートセンシングネットワーク(Hi-ResNet)を提案する。
論文 参考訳(メタデータ) (2023-05-22T03:58:25Z) - Background Invariance Testing According to Semantic Proximity [7.041874755169558]
対象画像とのセマンティックな近接性に応じて背景シーンを順序付けする手法を提案する。
これにより、ターゲット画像に対する異なる意味距離の背景シーンを効率的かつ有意義に検索することができる。
論文 参考訳(メタデータ) (2022-08-19T12:09:26Z) - High-resolution Iterative Feedback Network for Camouflaged Object
Detection [128.893782016078]
カモフラージュされたオブジェクトを背景に視覚的に同化させることは、オブジェクト検出アルゴリズムにとって難しい。
エッジやバウンダリのぼやけた視界を生じさせる細部劣化を避けるために,高分解能テクスチャの詳細を抽出することを目的としている。
我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練する新しいHitNetを提案する。
論文 参考訳(メタデータ) (2022-03-22T11:20:21Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。