Fugu-MT 論文翻訳(概要): Viewpoint Integration and Registration with Vision Language Foundation Model for Image Change Understanding

論文の概要: Viewpoint Integration and Registration with Vision Language Foundation Model for Image Change Understanding

arxiv url: http://arxiv.org/abs/2309.08585v1
Date: Fri, 15 Sep 2023 17:41:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-18 13:31:57.010266
Title: Viewpoint Integration and Registration with Vision Language Foundation Model for Image Change Understanding
Title（参考訳）: 画像変化理解のための視覚言語基盤モデルによる視点統合と登録
Authors: Xiaonan Lu, Jianlong Yuan, Ruigang Niu, Yuan Hu, Fan Wang
Abstract要約: 画像変化理解(ICU)に直接適用した場合,既存の視覚言語基盤モデル (VLFM) が不十分であることを示す。 ICUは複数の画像間の実際の変化をキャプチャし、それらを言語で記述するためにモデルを必要とする。本稿では,これらの問題に対処するための視点統合と登録手法を提案する。
参考スコア（独自算出の注目度）: 15.392243642628387
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, the development of pre-trained vision language foundation models (VLFMs) has led to remarkable performance in many tasks. However, these models tend to have strong single-image understanding capability but lack the ability to understand multiple images. Therefore, they cannot be directly applied to cope with image change understanding (ICU), which requires models to capture actual changes between multiple images and describe them in language. In this paper, we discover that existing VLFMs perform poorly when applied directly to ICU because of the following problems: (1) VLFMs generally learn the global representation of a single image, while ICU requires capturing nuances between multiple images. (2) The ICU performance of VLFMs is significantly affected by viewpoint variations, which is caused by the altered relationships between objects when viewpoint changes. To address these problems, we propose a Viewpoint Integration and Registration method. Concretely, we introduce a fused adapter image encoder that fine-tunes pre-trained encoders by inserting designed trainable adapters and fused adapters, to effectively capture nuances between image pairs. Additionally, a viewpoint registration flow and a semantic emphasizing module are designed to reduce the performance degradation caused by viewpoint variations in the visual and semantic space, respectively. Experimental results on CLEVR-Change and Spot-the-Diff demonstrate that our method achieves state-of-the-art performance in all metrics.
Abstract（参考訳）: 近年,事前学習型視覚言語基礎モデル (VLFMs) の開発が,多くのタスクにおいて顕著なパフォーマンスをもたらしている。しかし、これらのモデルは強い単一画像理解能力を持つ傾向にあるが、複数の画像を理解する能力がない。したがって、複数の画像間の実際の変化を捉え、それらを言語で記述するモデルを必要とする画像変化理解(ICU)に対処するために直接適用することはできない。本稿では,既存のVLFMは,(1)VLFMが単一画像のグローバルな表現を学習するのに対して,ICUは複数の画像間のニュアンスをキャプチャする必要がある,という問題から,ICUに直接適用すると性能が低下することを明らかにする。 2) VLFMs の ICU 性能は,視点変化に伴う物体間の関係の変化によって引き起こされる視点変化に大きく影響される。これらの問題を解決するために,ビューポイント統合と登録手法を提案する。具体的には,イメージペア間のニュアンスを効果的に捉えるために,設計したトレーニング可能なアダプタとフューズドアダプタを挿入することで,事前訓練されたエンコーダを微調整するフューズドアダプタ画像エンコーダを提案する。さらに、視点登録フローとセマンティック強調モジュールは、視覚空間とセマンティック空間における視点変動に起因する性能劣化を低減するように設計されている。 CLEVR-Change と Spot-the-Diff の実験結果から,本手法が全測定値における最先端性能を実現することを示す。

関連論文リスト

DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception [0.846600473226587]
本稿では, リモートセンシング画像変化解析(RSICA)を, 変化検出の強みと視覚的質問応答を組み合わせた新しいパラダイムとして導入する。対話型RSICAに適したエンドツーエンドアーキテクチャであるDeltaVLMを提案する。 DeltaVLMは, 時間差を捉えた微調整バイテンポラルビジョンエンコーダ, 変化を解釈する相互関係測定機構を備えた視覚差分認識モジュール, クエリ関連差分情報を効果的に抽出する命令誘導Q-フォーマの3つのイノベーションを特徴とする。
論文参考訳（メタデータ） (2025-07-30T03:14:27Z)
Demystifying the Visual Quality Paradox in Multimodal Large Language Models [49.154146792279946]
最近のMLLM(Multimodal Large Language Models)は、視覚言語タスクのベンチマークに優れていますが、入力された視覚的品質がその応答をどのように形作るかについてはほとんど分かっていません。本研究は,MLLMを先導する最初の体系的な研究と,視覚言語ベンチマークのスイートを対象とする。モデル,タスク,さらには個々のインスタンスのパフォーマンスさえも,人間の知覚した忠実さから逸脱した画像を改善することができる。
論文参考訳（メタデータ） (2025-06-18T17:14:07Z)
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文参考訳（メタデータ） (2025-04-23T18:38:18Z)
On the Limitations of Vision-Language Models in Understanding Image Transforms [0.9217021281095907]
視覚言語モデル(VLM)は、様々な下流タスクにおいて大きな可能性を証明している。本稿では,VLMのイメージレベルの理解,特にOpenAIによるCLIPとGoogleによるSigLIPについて検討する。以上の結果から,これらのモデルには複数の画像レベルの拡張の理解が欠如していることが判明した。
論文参考訳（メタデータ） (2025-03-12T20:58:16Z)
VisMin: Visual Minimal-Change Understanding [7.226130826257802]
Visual Minimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。 VisMinは、2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。我々は,大規模言語モデルと拡散モデルを用いた自動フレームワークを構築し,続いて人間のアノテーションによる厳密な4段階の検証プロセスを構築した。
論文参考訳（メタデータ） (2024-07-23T18:10:43Z)
OneDiff: A Generalist Model for Image Difference Captioning [5.71214984158106]
画像差分キャプション(IDC)は、近縁な画像間の変化を正確に記述するために重要である。 OneDiffは、堅牢な視覚言語モデルアーキテクチャを利用する新しいジェネラリストアプローチである。 OneDiffは、既存の最先端モデルを精度と適応性で一貫して上回っている。
論文参考訳（メタデータ） (2024-07-08T06:14:37Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文参考訳（メタデータ） (2024-03-03T07:58:03Z)
Question Aware Vision Transformer for Multimodal Reasoning [14.188369270753347]
マルチモーダル推論のための質問認識型視覚変換器QA-ViTを提案する。視覚エンコーダに直接質問認識を埋め込む。この統合により、仮定された問題に関連性のある画像の側面に焦点を当てた動的視覚的特徴が得られる。
論文参考訳（メタデータ） (2024-02-08T08:03:39Z)
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。 2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文参考訳（メタデータ） (2023-12-19T18:53:01Z)
APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。 APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文参考訳（メタデータ） (2023-12-04T01:42:09Z)
Adapting Segment Anything Model for Change Detection in HR Remote Sensing Images [18.371087310792287]
本研究は、高解像度リモートセンシング画像(RSI)の変化検出を改善するために、ビジョンファウンデーションモデル(VFM)の強力な視覚認識機能を活用することを目的とする。我々は、能率的なSAMの変種であるFastSAMの視覚エンコーダを用いて、RSシーンの視覚表現を抽出する。 SAMの特徴に固有の意味表現を活用するために、両時間RSIにおける意味潜在をモデル化するためのタスク非依存の意味学習ブランチを導入する。その結果, SAMCDはSOTA法よりも精度が高く, セミに匹敵するサンプル効率の学習能力を示す。
論文参考訳（メタデータ） (2023-09-04T08:23:31Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
RelationRS: Relationship Representation Network for Object Detection in Aerial Images [15.269897893563417]
航空画像における物体検出のための関係表現ネットワーク(RelationRS)を提案する。デュアルリレーションモジュールは、異なるスケールの特徴間の潜在的な関係を学習し、異なるパッチから異なるシーン間の関係を同じイテレーションで学習する。複雑な背景を持つ画像の物体検出効果を改善するため、BVR(Bridging visual representations Module)が空中画像のフィールドに導入される。
論文参考訳（メタデータ） (2021-10-13T14:02:33Z)
Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文参考訳（メタデータ） (2021-05-29T05:26:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。