論文の概要: All in a Single Image: Large Multimodal Models are In-Image Learners
- arxiv url: http://arxiv.org/abs/2402.17971v1
- Date: Wed, 28 Feb 2024 01:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 16:44:34.528349
- Title: All in a Single Image: Large Multimodal Models are In-Image Learners
- Title(参考訳): すべて1つのイメージで:大きなマルチモーダルモデルは画像内の学習者です
- Authors: Lei Wang, Wanyu Xu, Zhiqiang Hu, Yihuai Lan, Shan Dong, Hao Wang, Roy
Ka-Wei Lee, Ee-Peng Lim
- Abstract要約: 本稿では,In-Image Learning (I$2$L) と呼ばれる新しいコンテキスト内学習(ICL)機構を提案する。
I$2$Lは、デモ例、視覚的手がかり、命令を単一のイメージに組み合わせて、GPT-4Vの能力を向上する。
- 参考スコア(独自算出の注目度): 23.579339159460446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a new in-context learning (ICL) mechanism called
In-Image Learning (I$^2$L) that combines demonstration examples, visual cues,
and instructions into a single image to enhance the capabilities of GPT-4V.
Unlike previous approaches that rely on converting images to text or
incorporating visual input into language models, I$^2$L consolidates all
information into one image and primarily leverages image processing,
understanding, and reasoning abilities. This has several advantages: it avoids
inaccurate textual descriptions of complex images, provides flexibility in
positioning demonstration examples, reduces the input burden, and avoids
exceeding input limits by eliminating the need for multiple images and lengthy
text. To further combine the strengths of different ICL methods, we introduce
an automatic strategy to select the appropriate ICL method for a data example
in a given task. We conducted experiments on MathVista and Hallusionbench to
test the effectiveness of I$^2$L in complex multimodal reasoning tasks and
mitigating language hallucination and visual illusion. Additionally, we
explored the impact of image resolution, the number of demonstration examples,
and their positions on the effectiveness of I$^2$L. Our code is publicly
available at https://github.com/AGI-Edgerunners/IIL.
- Abstract(参考訳): 本稿では、実演例、視覚的手がかり、指示を1つの画像に組み合わせ、GPT-4Vの能力を増強するインコンテクスト学習(ICL)機構を新たに導入する。
画像のテキスト変換や視覚入力を言語モデルに組み込む従来のアプローチとは異なり、I$^2$Lは全ての情報を1つの画像に統合し、主に画像処理、理解、推論能力を活用する。
複雑な画像の不正確なテキスト記述を回避し、サンプルの位置決めの柔軟性を提供し、入力の負担を軽減し、複数の画像と長いテキストの必要性をなくすことで、入力制限を超えることを回避する。
異なる icl メソッドの強みを更に結合するために,与えられたタスクにおけるデータ例に対して適切な icl メソッドを選択するための自動戦略を導入する。
複雑なマルチモーダル推論タスクにおけるi$^2$lの有効性を検証し,言語幻覚と視覚錯覚の軽減を目的として,mathvistaとhallusionbenchを用いた実験を行った。
さらに,画像解像度の影響,実演例数,i$^2$lの有効性について検討した。
私たちのコードはhttps://github.com/AGI-Edgerunners/IILで公開されています。
関連論文リスト
- Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Caption Anything: Interactive Image Description with Diverse Multimodal
Controls [14.628597750669275]
制御可能な画像キャプションは、人間の目的に従って自然言語で画像を記述することを目的としている。
本稿では,画像キャプションの基盤モデルであるCaption AnyThingを紹介する。
Segment Anything Model (SAM) と ChatGPT によってパワーアップされた私たちは、視覚的および言語的プロンプトをモジュール化されたフレームワークに統合します。
論文 参考訳(メタデータ) (2023-05-04T09:48:22Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Multi-Image Summarization: Textual Summary from a Set of Cohesive Images [17.688344968462275]
本稿では,マルチイメージ要約の新しい課題を提案する。
入力画像のコヒーレントな集合から簡潔で記述的なテキスト要約を生成することを目的としている。
密度の高い平均画像特徴集約ネットワークにより、モデルは属性のコヒーレントなサブセットに集中することができる。
論文 参考訳(メタデータ) (2020-06-15T18:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。