論文の概要: All in an Aggregated Image for In-Image Learning
- arxiv url: http://arxiv.org/abs/2402.17971v2
- Date: Tue, 2 Apr 2024 09:32:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 08:29:27.828150
- Title: All in an Aggregated Image for In-Image Learning
- Title(参考訳): 画像内学習のための集約画像のすべて
- Authors: Lei Wang, Wanyu Xu, Zhiqiang Hu, Yihuai Lan, Shan Dong, Hao Wang, Roy Ka-Wei Lee, Ee-Peng Lim,
- Abstract要約: 本稿では,In-Image Learning (I$2$L) と呼ばれる新しいコンテキスト内学習(ICL)機構を提案する。
I$2$Lは、実演例、視覚的手がかり、思考の連鎖的推論を集約されたイメージに組み合わせている。
本研究では,MathVista 上で I$2$L と I$2$L-Hybrid の有効性を評価するための広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 22.605706711147405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a new in-context learning (ICL) mechanism called In-Image Learning (I$^2$L) that combines demonstration examples, visual cues, and chain-of-thought reasoning into an aggregated image to enhance the capabilities of Large Multimodal Models (e.g., GPT-4V) in multimodal reasoning tasks. Unlike previous approaches that rely on converting images to text or incorporating visual input into language models, I$^2$L consolidates all information into an aggregated image and leverages image processing, understanding, and reasoning abilities. This has several advantages: it reduces inaccurate textual descriptions of complex images, provides flexibility in positioning demonstration examples, and avoids multiple input images and lengthy prompts. We also introduce I$^2$L-Hybrid, a method that combines the strengths of I$^2$L with other ICL methods. Specifically, it uses an automatic strategy to select the most suitable method (I$^2$L or another certain ICL method) for a specific task instance. We conduct extensive experiments to assess the effectiveness of I$^2$L and I$^2$L-Hybrid on MathVista, which covers a variety of complex multimodal reasoning tasks. Additionally, we investigate the influence of image resolution, the number of demonstration examples in a single image, and the positions of these demonstrations in the aggregated image on the effectiveness of I$^2$L. Our code is publicly available at https://github.com/AGI-Edgerunners/IIL.
- Abstract(参考訳): 本稿では,複数モーダル推論タスクにおける大規模マルチモーダルモデル(GPT-4V)の能力を高めるために,実例,視覚的手がかり,チェーン・オブ・シント推論を集約画像に組み合わせた,画像内学習(I$^2$L)機構を提案する。
画像のテキスト変換や視覚入力を言語モデルに組み込む従来のアプローチとは異なり、I$^2$Lは全ての情報を集約された画像に集約し、画像処理、理解、推論能力を活用する。
これは、複雑な画像の不正確なテキスト記述を減らし、デモ例の位置決めの柔軟性を提供し、複数の入力画像と長いプロンプトを避けるという、いくつかの利点がある。
また、I$^2$L-Hybridは、I$^2$Lの強みを他のICL法と組み合わせた手法である。
具体的には、特定のタスクインスタンスに対して最も適切なメソッド(I$^2$Lなど)を選択するために、自動戦略を使用する。
我々は、様々な複雑なマルチモーダル推論タスクをカバーするMathVista上で、I$^2$LとI$^2$L-Hybridの有効性を評価するための広範な実験を行う。
さらに,画像の解像度,1枚の画像における実演回数,および集約画像におけるこれらの実演の位置がI$^2$Lの有効性に与える影響について検討した。
私たちのコードはhttps://github.com/AGI-Edgerunners/IILで公開されています。
関連論文リスト
- $Se^2$: Sequential Example Selection for In-Context Learning [86.75255148668198]
インコンテキスト学習(ICL)のための大規模言語モデル(LLM)は、実演例によって起動する必要がある。
以前の研究は、主に"select then organize"パラダイムに従って、ICLの例の選択を幅広く検討してきた。
本稿では,この問題を$textitse$quential $textitse$lection問題として定式化し,シーケンシャル・アウェア法である$Se2$を導入する。
論文 参考訳(メタデータ) (2024-02-21T15:35:04Z) - Characterizing Large Language Model Geometry Solves Toxicity Detection
and Generation [17.23046811997016]
大規模言語モデルは、現在のAIのブレークスルーを加速させる。
幾何学的観点からLLMを特徴付ける。
我々の結果は情報的であり、近似に頼らず、実行可能である。
論文 参考訳(メタデータ) (2023-12-04T06:01:32Z) - M$^{2}$Chat: Empowering VLM for Multimodal LLM Interleaved Text-Image Generation [45.79215260916687]
textbf$M2Chat$は、インターリーブされたテキストイメージの会話を生成するための新しい統合マルチモーダルLLMフレームワークである。
M3Adapter$は、マルチモーダルプロンプトから、粒度の低い視覚情報と高レベルのセマンティック機能を統合する。
M3FT$ fine-tuning strategy イメージテキストアライメントとビジュアルインストラクションのために、パラメータの分離したグループを最適化する。
論文 参考訳(メタデータ) (2023-11-29T11:30:33Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - Annotation Cost Efficient Active Learning for Content Based Image
Retrieval [1.6624384368855525]
アノテーションコスト効率のよいアクティブラーニング(AL)手法(ANNEAL)を提案する。
提案手法は、最も情報性の高い画像対を類似または異種として注釈付けすることにより、トレーニングセットを反復的に強化することを目的としている。
ANNEALのコードはhttps://git.tu-berlin.de/rsim/ANNEALで公開されている。
論文 参考訳(メタデータ) (2023-06-20T15:33:24Z) - Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with
Multimodal Models [61.97890177840515]
人間はクロスモーダル情報を使って、新しい概念を効率的に学習する。
異なるモダリティにまたがる少数ショット例から学習する,シンプルなクロスモーダル適応手法を提案する。
論文 参考訳(メタデータ) (2023-01-16T05:40:42Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Efficient Image Gallery Representations at Scale Through Multi-Task
Learning [5.457150493905064]
画像ギャラリーは、多くのレコメンデーションおよび検索アプリケーションで活用できる製品に関する豊富な情報ソースを提供する。
マルチタスク学習(MTL)アプローチによるユニバーサル画像ギャラリーエンコーダ構築の問題について検討し,新たな下流タスクへの学習表現の一般化を実現するための実践的な方法であることを実証する。
論文 参考訳(メタデータ) (2020-05-18T18:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。