論文の概要: Instruct Me More! Random Prompting for Visual In-Context Learning
- arxiv url: http://arxiv.org/abs/2311.03648v1
- Date: Tue, 7 Nov 2023 01:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 17:14:33.539374
- Title: Instruct Me More! Random Prompting for Visual In-Context Learning
- Title(参考訳): もっと教えてくれ!
視覚インコンテキスト学習のためのランダムプロンプト
- Authors: Jiahao Zhang, Bowen Wang, Liangzhi Li, Yuta Nakashima, Hajime Nagahara
- Abstract要約: Instruct Me More (InMeMo)は、学習可能な摂動(prompt)によってコンテキスト内のペアを拡張し、その可能性を探る手法である。
メインストリームタスクに関する我々の実験は、InMeMoが現在の最先端のパフォーマンスを上回っていることを示している。
この結果から,InMeMoは軽量トレーニングによる視覚的ICLの性能向上のための多目的かつ効率的な方法である可能性が示唆された。
- 参考スコア(独自算出の注目度): 30.31759752239964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale models trained on extensive datasets, have emerged as the
preferred approach due to their high generalizability across various tasks.
In-context learning (ICL), a popular strategy in natural language processing,
uses such models for different tasks by providing instructive prompts but
without updating model parameters. This idea is now being explored in computer
vision, where an input-output image pair (called an in-context pair) is
supplied to the model with a query image as a prompt to exemplify the desired
output. The efficacy of visual ICL often depends on the quality of the prompts.
We thus introduce a method coined Instruct Me More (InMeMo), which augments
in-context pairs with a learnable perturbation (prompt), to explore its
potential. Our experiments on mainstream tasks reveal that InMeMo surpasses the
current state-of-the-art performance. Specifically, compared to the baseline
without learnable prompt, InMeMo boosts mIoU scores by 7.35 and 15.13 for
foreground segmentation and single object detection tasks, respectively. Our
findings suggest that InMeMo offers a versatile and efficient way to enhance
the performance of visual ICL with lightweight training. Code is available at
https://github.com/Jackieam/InMeMo.
- Abstract(参考訳): 広範囲なデータセットでトレーニングされた大規模モデルは、様々なタスクにわたる高い一般化性のために好まれるアプローチとして現れている。
自然言語処理で一般的な戦略であるin-context learning(icl)は、モデルパラメータを更新せずに指示的なプロンプトを提供することで、異なるタスクにそのようなモデルを使用する。
このアイデアは現在、コンピュータビジョンで検討されており、入力/出力画像ペア(in-context pairと呼ばれる)がクエリイメージをプロンプトとしてモデルに供給され、所望の出力が例示される。
視覚 icl の効果はプロンプトの質に依存することが多い。
そこで我々は,学習可能な摂動(prompt)を用いて文脈内ペアを増強するinstruct me more(inmemo)という手法を導入する。
主流タスクに関する我々の実験は、InMeMoが現在の最先端のパフォーマンスを上回っていることを示している。
特に、学習可能なプロンプトのないベースラインと比較して、InMeMoは前景のセグメンテーションと単一のオブジェクト検出タスクでmIoUスコアを7.35と15.13に向上させる。
この結果から,InMeMoは軽量トレーニングによる視覚ICLの性能向上のための多目的かつ効率的な方法であることがわかった。
コードはhttps://github.com/Jackieam/InMeMoで入手できる。
関連論文リスト
- CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Learning Robust Visual-Semantic Embedding for Generalizable Person
Re-identification [11.562980171753162]
一般化可能な人物識別(Re-ID)は、機械学習とコンピュータビジョンにおいて非常にホットな研究トピックである。
従来の手法は主に視覚表現学習に焦点をあてるが、訓練中の意味的特徴の可能性を検討することは無視される。
MMETと呼ばれるマルチモーダル等価変換器を提案し,より堅牢なビジュアル・セマンティックな埋め込み学習を実現する。
論文 参考訳(メタデータ) (2023-04-19T08:37:25Z) - Meta Learning to Bridge Vision and Language Models for Multimodal
Few-Shot Learning [38.37682598345653]
視覚モデルと言語モデルとのギャップを埋めるために,マルチモーダルなメタ学習手法を導入する。
我々は,凍結した大規模視覚と言語モデルを効率的にブリッジするためにメタラーナーとして機能するメタマッパーネットワークを定義する。
我々は,最近提案されたマルチモーダル・スショット・ベンチマークに対するアプローチを評価し,新しい視覚概念を単語に結合する速度を計測した。
論文 参考訳(メタデータ) (2023-02-28T17:46:18Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。