論文の概要: All in a Single Image: Large Multimodal Models are In-Image Learners
- arxiv url: http://arxiv.org/abs/2402.17971v1
- Date: Wed, 28 Feb 2024 01:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 16:44:34.528349
- Title: All in a Single Image: Large Multimodal Models are In-Image Learners
- Title(参考訳): すべて1つのイメージで:大きなマルチモーダルモデルは画像内の学習者です
- Authors: Lei Wang, Wanyu Xu, Zhiqiang Hu, Yihuai Lan, Shan Dong, Hao Wang, Roy
Ka-Wei Lee, Ee-Peng Lim
- Abstract要約: 本稿では,In-Image Learning (I$2$L) と呼ばれる新しいコンテキスト内学習(ICL)機構を提案する。
I$2$Lは、デモ例、視覚的手がかり、命令を単一のイメージに組み合わせて、GPT-4Vの能力を向上する。
- 参考スコア(独自算出の注目度): 23.579339159460446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a new in-context learning (ICL) mechanism called
In-Image Learning (I$^2$L) that combines demonstration examples, visual cues,
and instructions into a single image to enhance the capabilities of GPT-4V.
Unlike previous approaches that rely on converting images to text or
incorporating visual input into language models, I$^2$L consolidates all
information into one image and primarily leverages image processing,
understanding, and reasoning abilities. This has several advantages: it avoids
inaccurate textual descriptions of complex images, provides flexibility in
positioning demonstration examples, reduces the input burden, and avoids
exceeding input limits by eliminating the need for multiple images and lengthy
text. To further combine the strengths of different ICL methods, we introduce
an automatic strategy to select the appropriate ICL method for a data example
in a given task. We conducted experiments on MathVista and Hallusionbench to
test the effectiveness of I$^2$L in complex multimodal reasoning tasks and
mitigating language hallucination and visual illusion. Additionally, we
explored the impact of image resolution, the number of demonstration examples,
and their positions on the effectiveness of I$^2$L. Our code is publicly
available at https://github.com/AGI-Edgerunners/IIL.
- Abstract(参考訳): 本稿では、実演例、視覚的手がかり、指示を1つの画像に組み合わせ、GPT-4Vの能力を増強するインコンテクスト学習(ICL)機構を新たに導入する。
画像のテキスト変換や視覚入力を言語モデルに組み込む従来のアプローチとは異なり、I$^2$Lは全ての情報を1つの画像に統合し、主に画像処理、理解、推論能力を活用する。
複雑な画像の不正確なテキスト記述を回避し、サンプルの位置決めの柔軟性を提供し、入力の負担を軽減し、複数の画像と長いテキストの必要性をなくすことで、入力制限を超えることを回避する。
異なる icl メソッドの強みを更に結合するために,与えられたタスクにおけるデータ例に対して適切な icl メソッドを選択するための自動戦略を導入する。
複雑なマルチモーダル推論タスクにおけるi$^2$lの有効性を検証し,言語幻覚と視覚錯覚の軽減を目的として,mathvistaとhallusionbenchを用いた実験を行った。
さらに,画像解像度の影響,実演例数,i$^2$lの有効性について検討した。
私たちのコードはhttps://github.com/AGI-Edgerunners/IILで公開されています。
関連論文リスト
- $\mathbb{X}$-Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs [62.565573316667276]
サンプルが他者とどのように関連しているかを符号化する目的を開発する。
クラスやテキストのキャプション記述における類似性に基づいて視覚モデルを訓練する。
我々の目標は、特に低いデータ体制でうまく機能しているようで、CLIPが16.8%、ImageNet Realが18.1%だった。
論文 参考訳(メタデータ) (2024-07-25T15:38:16Z) - Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。
提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文 参考訳(メタデータ) (2024-05-16T17:59:21Z) - $Se^2$: Sequential Example Selection for In-Context Learning [83.17038582333716]
インコンテキスト学習(ICL)のための大規模言語モデル(LLM)は、実演例によって起動する必要がある。
以前の研究は、主に"select then organize"パラダイムに従って、ICLの例の選択を幅広く検討してきた。
本稿では,この問題を$Se$quential $Se$lection問題として定式化し,シーケンシャル・アウェア法である$Se2$を導入する。
論文 参考訳(メタデータ) (2024-02-21T15:35:04Z) - M$^{2}$Chat: Empowering VLM for Multimodal LLM Interleaved Text-Image Generation [45.79215260916687]
textbf$M2Chat$は、インターリーブされたテキストイメージの会話を生成するための新しい統合マルチモーダルLLMフレームワークである。
M3Adapter$は、マルチモーダルプロンプトから、粒度の低い視覚情報と高レベルのセマンティック機能を統合する。
M3FT$ fine-tuning strategy イメージテキストアライメントとビジュアルインストラクションのために、パラメータの分離したグループを最適化する。
論文 参考訳(メタデータ) (2023-11-29T11:30:33Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Annotation Cost Efficient Active Learning for Content Based Image
Retrieval [1.6624384368855525]
アノテーションコスト効率のよいアクティブラーニング(AL)手法(ANNEAL)を提案する。
提案手法は、最も情報性の高い画像対を類似または異種として注釈付けすることにより、トレーニングセットを反復的に強化することを目的としている。
ANNEALのコードはhttps://git.tu-berlin.de/rsim/ANNEALで公開されている。
論文 参考訳(メタデータ) (2023-06-20T15:33:24Z) - Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models [69.31424345583537]
人間はクロスモーダル情報を使って、新しい概念を効率的に学習する。
犬について読んだり、バークを聴いたりすることで、より優れた$bfビジュアルの犬分類器を構築できることを示す。
我々は、最初の(知識のために)オーディオヴィジュアルな数ショットのベンチマークを構築し、画像分類と音声分類の両方の性能を向上させるために、クロスモーダルトレーニングを使用する。
論文 参考訳(メタデータ) (2023-01-16T05:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。