Fugu-MT 論文翻訳(概要): All in a Single Image: Large Multimodal Models are In-Image Learners

論文の概要: All in a Single Image: Large Multimodal Models are In-Image Learners

arxiv url: http://arxiv.org/abs/2402.17971v1
Date: Wed, 28 Feb 2024 01:32:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 16:44:34.528349
Title: All in a Single Image: Large Multimodal Models are In-Image Learners
Title（参考訳）: すべて1つのイメージで:大きなマルチモーダルモデルは画像内の学習者です
Authors: Lei Wang, Wanyu Xu, Zhiqiang Hu, Yihuai Lan, Shan Dong, Hao Wang, Roy Ka-Wei Lee, Ee-Peng Lim
Abstract要約: 本稿では,In-Image Learning (I$2$L) と呼ばれる新しいコンテキスト内学習(ICL)機構を提案する。 I$2$Lは、デモ例、視覚的手がかり、命令を単一のイメージに組み合わせて、GPT-4Vの能力を向上する。
参考スコア（独自算出の注目度）: 23.579339159460446
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces a new in-context learning (ICL) mechanism called In-Image Learning (I$^2$L) that combines demonstration examples, visual cues, and instructions into a single image to enhance the capabilities of GPT-4V. Unlike previous approaches that rely on converting images to text or incorporating visual input into language models, I$^2$L consolidates all information into one image and primarily leverages image processing, understanding, and reasoning abilities. This has several advantages: it avoids inaccurate textual descriptions of complex images, provides flexibility in positioning demonstration examples, reduces the input burden, and avoids exceeding input limits by eliminating the need for multiple images and lengthy text. To further combine the strengths of different ICL methods, we introduce an automatic strategy to select the appropriate ICL method for a data example in a given task. We conducted experiments on MathVista and Hallusionbench to test the effectiveness of I$^2$L in complex multimodal reasoning tasks and mitigating language hallucination and visual illusion. Additionally, we explored the impact of image resolution, the number of demonstration examples, and their positions on the effectiveness of I$^2$L. Our code is publicly available at https://github.com/AGI-Edgerunners/IIL.
Abstract（参考訳）: 本稿では、実演例、視覚的手がかり、指示を1つの画像に組み合わせ、GPT-4Vの能力を増強するインコンテクスト学習(ICL)機構を新たに導入する。画像のテキスト変換や視覚入力を言語モデルに組み込む従来のアプローチとは異なり、I$^2$Lは全ての情報を1つの画像に統合し、主に画像処理、理解、推論能力を活用する。複雑な画像の不正確なテキスト記述を回避し、サンプルの位置決めの柔軟性を提供し、入力の負担を軽減し、複数の画像と長いテキストの必要性をなくすことで、入力制限を超えることを回避する。異なる icl メソッドの強みを更に結合するために,与えられたタスクにおけるデータ例に対して適切な icl メソッドを選択するための自動戦略を導入する。複雑なマルチモーダル推論タスクにおけるi$^2$lの有効性を検証し,言語幻覚と視覚錯覚の軽減を目的として,mathvistaとhallusionbenchを用いた実験を行った。さらに,画像解像度の影響,実演例数,i$^2$lの有効性について検討した。私たちのコードはhttps://github.com/AGI-Edgerunners/IILで公開されています。

関連論文リスト

ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning [89.19449553099747]
テキスト・ツー・イメージ・インコンテキスト・ラーニング(T2I-ICL)の問題点について検討する。本稿では、画像生成に先立って、ImageGen-CoTと呼ばれる思考プロセスを組み込んだフレームワークを提案する。このデータセットを用いてMLLMを微調整し、文脈推論能力を向上する。
論文参考訳（メタデータ） (2025-03-25T03:18:46Z)
PRIMA: Multi-Image Vision-Language Models for Reasoning Segmentation [4.628848080978533]
PRIMAはLVLM(Large Vision-Language Models)で、ピクセルレベルのグラウンドと堅牢なマルチイメージ推論機能を統合する。 PRIMAは複数の画像にわたる細粒度の視覚表現をクエリし、TFLOPを25.3%値下げした。
論文参考訳（メタデータ） (2024-12-19T18:59:44Z)
Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文参考訳（メタデータ） (2024-12-02T01:19:21Z)
$\mathbb{X}$-Sample Contrastive Loss: Improving Contrastive Learning with Sample Similarity Graphs [62.565573316667276]
サンプルが他者とどのように関連しているかを符号化する目的を開発する。クラスやテキストのキャプション記述における類似性に基づいて視覚モデルを訓練する。我々の目標は、特に低いデータ体制でうまく機能しているようで、CLIPが16.8%、ImageNet Realが18.1%だった。
論文参考訳（メタデータ） (2024-07-25T15:38:16Z)
Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文参考訳（メタデータ） (2024-05-16T17:59:21Z)
$Se^2$: Sequential Example Selection for In-Context Learning [83.17038582333716]
インコンテキスト学習(ICL)のための大規模言語モデル(LLM)は、実演例によって起動する必要がある。以前の研究は、主に"select then organize"パラダイムに従って、ICLの例の選択を幅広く検討してきた。本稿では,この問題を$Se$quential $Se$lection問題として定式化し,シーケンシャル・アウェア法である$Se2$を導入する。
論文参考訳（メタデータ） (2024-02-21T15:35:04Z)
M$^{2}$Chat: Empowering VLM for Multimodal LLM Interleaved Text-Image Generation [45.79215260916687]
textbf$M2Chat$は、インターリーブされたテキストイメージの会話を生成するための新しい統合マルチモーダルLLMフレームワークである。 M3Adapter$は、マルチモーダルプロンプトから、粒度の低い視覚情報と高レベルのセマンティック機能を統合する。 M3FT$ fine-tuning strategy イメージテキストアライメントとビジュアルインストラクションのために、パラメータの分離したグループを最適化する。
論文参考訳（メタデータ） (2023-11-29T11:30:33Z)
Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-10-08T10:47:24Z)
ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文参考訳（メタデータ） (2023-09-28T05:31:07Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
Annotation Cost Efficient Active Learning for Content Based Image Retrieval [1.6624384368855525]
アノテーションコスト効率のよいアクティブラーニング(AL)手法(ANNEAL)を提案する。提案手法は、最も情報性の高い画像対を類似または異種として注釈付けすることにより、トレーニングセットを反復的に強化することを目的としている。 ANNEALのコードはhttps://git.tu-berlin.de/rsim/ANNEALで公開されている。
論文参考訳（メタデータ） (2023-06-20T15:33:24Z)
Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models [69.31424345583537]
人間はクロスモーダル情報を使って、新しい概念を効率的に学習する。犬について読んだり、バークを聴いたりすることで、より優れた$bfビジュアルの犬分類器を構築できることを示す。我々は、最初の(知識のために)オーディオヴィジュアルな数ショットのベンチマークを構築し、画像分類と音声分類の両方の性能を向上させるために、クロスモーダルトレーニングを使用する。
論文参考訳（メタデータ） (2023-01-16T05:40:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。