論文の概要: E-InMeMo: Enhanced Prompting for Visual In-Context Learning
- arxiv url: http://arxiv.org/abs/2504.18158v1
- Date: Fri, 25 Apr 2025 08:12:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.692482
- Title: E-InMeMo: Enhanced Prompting for Visual In-Context Learning
- Title(参考訳): E-InMeMo:ビジュアルインテクスト学習のためのプロンプト強化
- Authors: Jiahao Zhang, Bowen Wang, Hong Liu, Liangzhi Li, Yuta Nakashima, Hajime Nagahara,
- Abstract要約: E-InMeMoは、学習可能な摂動をコンテキスト内のペアに組み込んでプロンプトを最適化する新しいアプローチである。
前景のセグメンテーションでは7.99、単体検出では17.04のmIoUスコアを改善する。
これらの結果から,E-InMeMoは視覚的ICL向上のための軽量かつ効果的な戦略であることが示された。
- 参考スコア(独自算出の注目度): 31.05206727304296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale models trained on extensive datasets have become the standard due to their strong generalizability across diverse tasks. In-context learning (ICL), widely used in natural language processing, leverages these models by providing task-specific prompts without modifying their parameters. This paradigm is increasingly being adapted for computer vision, where models receive an input-output image pair, known as an in-context pair, alongside a query image to illustrate the desired output. However, the success of visual ICL largely hinges on the quality of these prompts. To address this, we propose Enhanced Instruct Me More (E-InMeMo), a novel approach that incorporates learnable perturbations into in-context pairs to optimize prompting. Through extensive experiments on standard vision tasks, E-InMeMo demonstrates superior performance over existing state-of-the-art methods. Notably, it improves mIoU scores by 7.99 for foreground segmentation and by 17.04 for single object detection when compared to the baseline without learnable prompts. These results highlight E-InMeMo as a lightweight yet effective strategy for enhancing visual ICL. Code is publicly available at: https://github.com/Jackieam/E-InMeMo
- Abstract(参考訳): 広範囲なデータセットでトレーニングされた大規模モデルは、様々なタスクにまたがる強力な一般化性のために標準となっている。
自然言語処理で広く使われているインコンテキスト学習(ICL)は、これらのモデルをパラメータを変更することなくタスク固有のプロンプトを提供することによって活用する。
このパラダイムはコンピュータビジョンに適応し、モデルが所望の出力を示すクエリ画像とともに、インコンテキストペアとして知られる入出力イメージペアを受け取るようになってきている。
しかし、視覚的ICLの成功は、これらのプロンプトの品質に大きく影響している。
そこで本研究では,学習可能な摂動をコンテキスト内ペアに組み込んでプロンプトを最適化する新しい手法である Enhanced Instruct Me More (E-InMeMo) を提案する。
標準的なビジョンタスクに関する広範な実験を通じて、E-InMeMoは既存の最先端手法よりも優れた性能を示す。
特に、前景のセグメンテーションのmIoUスコアを7.99、学習不能なプロンプトのベースラインと比較して1つのオブジェクト検出の17.04に改善する。
これらの結果から,E-InMeMoは視覚的ICL向上のための軽量かつ効果的な戦略であることが示された。
コードは、https://github.com/Jackieam/E-InMeMoで公開されている。
関連論文リスト
- Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - IPO: Interpretable Prompt Optimization for Vision-Language Models [40.83071220530289]
本稿では,シンプルだが解釈可能なプロンプト(IPO)を紹介する。
IPOは大規模言語モデル(LLM)を使用してテキストプロンプトを動的に生成する。
画像記述を生成することで、視覚的内容の条件付けに大型マルチモーダルモデル(LMM)を組み込む。
論文 参考訳(メタデータ) (2024-10-20T14:10:22Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Instruct Me More! Random Prompting for Visual In-Context Learning [30.31759752239964]
Instruct Me More (InMeMo)は、学習可能な摂動(prompt)によってコンテキスト内のペアを拡張し、その可能性を探る手法である。
メインストリームタスクに関する我々の実験は、InMeMoが現在の最先端のパフォーマンスを上回っていることを示している。
この結果から,InMeMoは軽量トレーニングによる視覚的ICLの性能向上のための多目的かつ効率的な方法である可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-07T01:39:00Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。