論文の概要: GiVE: Guiding Visual Encoder to Perceive Overlooked Information
- arxiv url: http://arxiv.org/abs/2410.20109v1
- Date: Sat, 26 Oct 2024 07:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:15:50.068562
- Title: GiVE: Guiding Visual Encoder to Perceive Overlooked Information
- Title(参考訳): GiVE:見落としている情報を知覚するためのビジュアルエンコーダ
- Authors: Junjie Li, Jianghong Ma, Xiaofeng Zhang, Yuhang Li, Jianyang Shi,
- Abstract要約: そこで我々は,視線から視線を知覚するGiVE(Guiving Visual to Perceive Overlooked Information)アプローチを提案する。
GiVEは、Attention-Guided Adapter (AG-Adapter)モジュールとオブジェクト中心のビジュアルセマンティック学習モジュールで視覚表現を強化する。
コントリビューションには、動的視覚的焦点調整、オブジェクト検索を強化する新しい損失関数、MOInst(Multi-Object Instruction)データセットが含まれる。
- 参考スコア(独自算出の注目度): 34.250785212478185
- License:
- Abstract: Multimodal Large Language Models have advanced AI in applications like text-to-video generation and visual question answering. These models rely on visual encoders to convert non-text data into vectors, but current encoders either lack semantic alignment or overlook non-salient objects. We propose the Guiding Visual Encoder to Perceive Overlooked Information (GiVE) approach. GiVE enhances visual representation with an Attention-Guided Adapter (AG-Adapter) module and an Object-focused Visual Semantic Learning module. These incorporate three novel loss terms: Object-focused Image-Text Contrast (OITC) loss, Object-focused Image-Image Contrast (OIIC) loss, and Object-focused Image Discrimination (OID) loss, improving object consideration, retrieval accuracy, and comprehensiveness. Our contributions include dynamic visual focus adjustment, novel loss functions to enhance object retrieval, and the Multi-Object Instruction (MOInst) dataset. Experiments show our approach achieves state-of-the-art performance.
- Abstract(参考訳): マルチモーダル大言語モデルは、テキスト・ツー・ビデオ生成や視覚的質問応答といったアプリケーションにおいて高度なAIを持つ。
これらのモデルは、非テキストデータをベクトルに変換するためにビジュアルエンコーダに依存しているが、現在のエンコーダには意味的アライメントがないか、非サラントオブジェクトを見落としている。
視線情報(GiVE)に対する視覚エンコーダの誘導手法を提案する。
GiVEは、Attention-Guided Adapter (AG-Adapter)モジュールとオブジェクト中心のビジュアルセマンティック学習モジュールで視覚表現を強化する。
これらは、OITC(Object- Focus Image-Text Contrast)損失、OIIC(Object- Focus Image- Image Contrast)損失、OID(Object- Focus Image Discrimination)損失の3つの新しい損失項を含んでいる。
コントリビューションには、動的視覚的焦点調整、オブジェクト検索を強化する新しい損失関数、MOInst(Multi-Object Instruction)データセットが含まれる。
実験により、我々のアプローチが最先端のパフォーマンスを達成することを示す。
関連論文リスト
- Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Selective Visual Representations Improve Convergence and Generalization
for Embodied AI [44.33711781750707]
身体化されたAIモデルは、CLIPのような棚の視覚バックボーンを使って視覚的な観察をエンコードすることが多い。
これは学習プロセス内のノイズを導入し、タスク関連視覚的手がかりからエージェントの焦点を逸脱させる。
人間が経験、知識、課題に基づいて知覚をフィルタリングするプロセスにおいて、人間の選択的な注意を喚起して、我々は、具体化されたAIのための視覚刺激をフィルタリングするためのパラメータ効率の良いアプローチを導入する。
論文 参考訳(メタデータ) (2023-11-07T18:34:02Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Detector Guidance for Multi-Object Text-to-Image Generation [61.70018793720616]
Detector Guidance(DG)は、潜在オブジェクト検出モデルを統合して、生成プロセス中に異なるオブジェクトを分離する。
人間の評価は、DGが対立する概念の融合を防ぐのに8-22%の利点をもたらすことを示した。
論文 参考訳(メタデータ) (2023-06-04T02:33:12Z) - Multi-modal Large Language Model Enhanced Pseudo 3D Perception Framework
for Visual Commonsense Reasoning [24.29849761674329]
代表作は、まず画像中のオブジェクトを認識し、それからテキスト中のキーワードと関連付ける。
MLLM拡張擬似3次元認識フレームワークは、視覚的コモンセンス推論のために設計されている。
VCRデータセットの実験は、最先端のアプローチよりも提案されたフレームワークの方が優れていることを示している。
論文 参考訳(メタデータ) (2023-01-30T23:43:28Z) - Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning [42.29650807349636]
正確な視覚的接地のためのトランスフォーマーベースのフレームワークを提案する。
テキスト記述に関連する領域に視覚的特徴を集中させる視覚言語検証モジュールを開発した。
言語誘導型特徴エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T13:48:15Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。