論文の概要: Viewpoint Integration and Registration with Vision Language Foundation
Model for Image Change Understanding
- arxiv url: http://arxiv.org/abs/2309.08585v1
- Date: Fri, 15 Sep 2023 17:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 13:31:57.010266
- Title: Viewpoint Integration and Registration with Vision Language Foundation
Model for Image Change Understanding
- Title(参考訳): 画像変化理解のための視覚言語基盤モデルによる視点統合と登録
- Authors: Xiaonan Lu, Jianlong Yuan, Ruigang Niu, Yuan Hu, Fan Wang
- Abstract要約: 画像変化理解(ICU)に直接適用した場合,既存の視覚言語基盤モデル (VLFM) が不十分であることを示す。
ICUは複数の画像間の実際の変化をキャプチャし、それらを言語で記述するためにモデルを必要とする。
本稿では,これらの問題に対処するための視点統合と登録手法を提案する。
- 参考スコア(独自算出の注目度): 15.392243642628387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the development of pre-trained vision language foundation models
(VLFMs) has led to remarkable performance in many tasks. However, these models
tend to have strong single-image understanding capability but lack the ability
to understand multiple images. Therefore, they cannot be directly applied to
cope with image change understanding (ICU), which requires models to capture
actual changes between multiple images and describe them in language. In this
paper, we discover that existing VLFMs perform poorly when applied directly to
ICU because of the following problems: (1) VLFMs generally learn the global
representation of a single image, while ICU requires capturing nuances between
multiple images. (2) The ICU performance of VLFMs is significantly affected by
viewpoint variations, which is caused by the altered relationships between
objects when viewpoint changes. To address these problems, we propose a
Viewpoint Integration and Registration method. Concretely, we introduce a fused
adapter image encoder that fine-tunes pre-trained encoders by inserting
designed trainable adapters and fused adapters, to effectively capture nuances
between image pairs. Additionally, a viewpoint registration flow and a semantic
emphasizing module are designed to reduce the performance degradation caused by
viewpoint variations in the visual and semantic space, respectively.
Experimental results on CLEVR-Change and Spot-the-Diff demonstrate that our
method achieves state-of-the-art performance in all metrics.
- Abstract(参考訳): 近年,事前学習型視覚言語基礎モデル (VLFMs) の開発が,多くのタスクにおいて顕著なパフォーマンスをもたらしている。
しかし、これらのモデルは強い単一画像理解能力を持つ傾向にあるが、複数の画像を理解する能力がない。
したがって、複数の画像間の実際の変化を捉え、それらを言語で記述するモデルを必要とする画像変化理解(ICU)に対処するために直接適用することはできない。
本稿では,既存のVLFMは,(1)VLFMが単一画像のグローバルな表現を学習するのに対して,ICUは複数の画像間のニュアンスをキャプチャする必要がある,という問題から,ICUに直接適用すると性能が低下することを明らかにする。
2) VLFMs の ICU 性能は,視点変化に伴う物体間の関係の変化によって引き起こされる視点変化に大きく影響される。
これらの問題を解決するために,ビューポイント統合と登録手法を提案する。
具体的には,イメージペア間のニュアンスを効果的に捉えるために,設計したトレーニング可能なアダプタとフューズドアダプタを挿入することで,事前訓練されたエンコーダを微調整するフューズドアダプタ画像エンコーダを提案する。
さらに、視点登録フローとセマンティック強調モジュールは、視覚空間とセマンティック空間における視点変動に起因する性能劣化を低減するように設計されている。
CLEVR-Change と Spot-the-Diff の実験結果から,本手法が全測定値における最先端性能を実現することを示す。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models [23.044366104080822]
textbfUniRSは視覚言語モデルとして最初のbftextremote bftextsensingタスクである。
UniRSはシングルイメージ、デュアルタイムイメージペア、ビデオを入力としてサポートし、総合的なリモートセンシング時間分析を可能にする。
実験の結果、UniRSは様々なタスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2024-12-30T06:34:18Z) - VisMin: Visual Minimal-Change Understanding [7.226130826257802]
Visual Minimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは、2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
我々は,大規模言語モデルと拡散モデルを用いた自動フレームワークを構築し,続いて人間のアノテーションによる厳密な4段階の検証プロセスを構築した。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z) - OneDiff: A Generalist Model for Image Difference Captioning [5.71214984158106]
画像差分キャプション(IDC)は、近縁な画像間の変化を正確に記述するために重要である。
OneDiffは、堅牢な視覚言語モデルアーキテクチャを利用する新しいジェネラリストアプローチである。
OneDiffは、既存の最先端モデルを精度と適応性で一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-08T06:14:37Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Question Aware Vision Transformer for Multimodal Reasoning [14.188369270753347]
マルチモーダル推論のための質問認識型視覚変換器QA-ViTを提案する。
視覚エンコーダに直接質問認識を埋め込む。
この統合により、仮定された問題に関連性のある画像の側面に焦点を当てた動的視覚的特徴が得られる。
論文 参考訳(メタデータ) (2024-02-08T08:03:39Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。