Fugu-MT 論文翻訳(概要): Few-Shot VQA with Frozen LLMs: A Tale of Two Approaches

論文の概要: Few-Shot VQA with Frozen LLMs: A Tale of Two Approaches

arxiv url: http://arxiv.org/abs/2403.11317v1
Date: Sun, 17 Mar 2024 19:44:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 17:27:03.168490
Title: Few-Shot VQA with Frozen LLMs: A Tale of Two Approaches
Title（参考訳）: 冷凍LDMを用いたVQA : 2つのアプローチの物語
Authors: Igor Sterner, Weizhe Lin, Jinghong Chen, Bill Byrne,
Abstract要約: 画像を大言語モデル(LLM)に入力する2つのアプローチを比較する。 LLM埋め込み空間に直接視覚埋め込みを接続しても,画像キャプションの使用による性能向上は保証されない。
参考スコア（独自算出の注目度）: 14.55916322869734
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Two approaches have emerged to input images into large language models (LLMs). The first is to caption images into natural language. The second is to map image feature embeddings into the domain of the LLM and pass the mapped embeddings directly to the LLM. The majority of recent few-shot multimodal work reports performance using architectures that employ variations of one of these two approaches. But they overlook an important comparison between them. We design a controlled and focused experiment to compare these two approaches to few-shot visual question answering (VQA) with LLMs. Our findings indicate that for Flan-T5 XL, a 3B parameter LLM, connecting visual embeddings directly to the LLM embedding space does not guarantee improved performance over using image captions. In the zero-shot regime, we find using textual image captions is better. In the few-shot regimes, how the in-context examples are selected determines which is better.
Abstract（参考訳）: 画像を大言語モデル(LLM)に入力する2つのアプローチが登場した。 1つ目は、画像を自然言語にキャプションすることだ。 2つ目は、画像フィーチャの埋め込みをLLMのドメインにマッピングし、マッピングされた埋め込みを直接LLMに渡すことである。最近の数発のマルチモーダルワークのほとんどは、これらの2つのアプローチのバリエーションを使用したアーキテクチャを使用したパフォーマンスを報告している。しかし、彼らはそれらの重要な比較を見落としている。我々は、これらの2つのアプローチを、LLMと数ショットの視覚的質問応答(VQA)と比較するために、制御され、焦点を絞った実験を設計する。その結果, 3B パラメータ LLM である Flan-T5 XL では, 画像キャプションを用いた場合よりも, 視覚的埋め込みを LLM の埋め込み空間に直接接続しても性能が向上しないことがわかった。ゼロショット方式では、テキストイメージキャプションを使うことの方がよい。数ショットのレジームでは、コンテキスト内サンプルをどのように選択するかによって、どちらがよいかが決定される。

関連論文リスト

Conan-Embedding-v2: Training an LLM from Scratch for Text Embeddings [25.724646707322986]
大規模言語モデル(LLM)は、最近、テキスト埋め込みタスクにおいて優れたパフォーマンスを示している。本研究では,スクラッチからトレーニングし,テキスト埋め込みとして微調整した新しい1.4BパラメータであるConan-embedding-v2を紹介する。直感的で有効であり、約1.4Bのパラメータしか持たないConan-embedding-v2は、MTEB(Massive Text Embedding Benchmark)と中国のMTEB(2025年5月19日)でSOTA性能を達成する。
論文参考訳（メタデータ） (2025-09-16T09:48:11Z)
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文参考訳（メタデータ） (2024-12-20T01:37:22Z)
AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。最小限の設計により,本手法はビデオと画像の両方に応用できる。同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文参考訳（メタデータ） (2024-12-04T11:47:57Z)
TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文参考訳（メタデータ） (2024-11-17T13:08:29Z)
Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文参考訳（メタデータ） (2024-08-23T06:48:46Z)
Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文参考訳（メタデータ） (2024-05-26T21:31:59Z)
CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文参考訳（メタデータ） (2023-12-04T05:13:59Z)
Filling the Image Information Gap for VQA: Prompting Large Language Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文参考訳（メタデータ） (2023-11-20T08:23:39Z)
Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文参考訳（メタデータ） (2023-09-12T04:03:41Z)
SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs [124.29233620842462]
画像やビデオなどの非言語的モダリティを含む理解タスクと生成タスクを,凍結したLLMで実現するためのSPAEを導入する。結果として得られる語彙トークンは、意味的意味と視覚的再構成に必要な細部の両方をキャプチャする。提案手法は,凍結したLCMが画像理解タスクの最先端性能を25%以上越えながら,画像コンテンツを生成できるようにする試みとして,初めて成功した試みである。
論文参考訳（メタデータ） (2023-06-30T17:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。