論文の概要: Lever LM: Configuring In-Context Sequence to Lever Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2312.10104v4
- Date: Thu, 31 Oct 2024 03:02:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 23:41:13.716929
- Title: Lever LM: Configuring In-Context Sequence to Lever Large Vision Language Models
- Title(参考訳): Lever LM: 大規模ビジョン言語モデルを活用するためのインコンテキストシーケンスの設定
- Authors: Xu Yang, Yingzhe Peng, Haoxuan Ma, Shuo Xu, Chi Zhang, Yucheng Han, Hanwang Zhang,
- Abstract要約: 我々は,67Mパラメータを持つ変換器である小言語モデル(LM)を用いて,9Bパラメータを持つはるかに大きな視覚言語モデル(LVLM)をレバーすることを提案する。
具体的には、この textbfLever-LM を用いて、LVLM のインコンテキストリアリング(ICL)性能を改善するために、効果的なインコンテキスト・デモ(ICD)シーケンスを構成する。
- 参考スコア(独自算出の注目度): 45.67877482179697
- License:
- Abstract: As Archimedes famously said, ``Give me a lever long enough and a fulcrum on which to place it, and I shall move the world'', in this study, we propose to use a tiny Language Model (LM), \eg, a Transformer with 67M parameters, to lever much larger Vision-Language Models (LVLMs) with 9B parameters. Specifically, we use this tiny \textbf{Lever-LM} to configure effective in-context demonstration (ICD) sequences to improve the In-Context Learinng (ICL) performance of LVLMs. Previous studies show that diverse ICD configurations like the selection and ordering of the demonstrations heavily affect the ICL performance, highlighting the significance of configuring effective ICD sequences. Motivated by this and by re-considering the the process of configuring ICD sequence, we find this is a mirror process of human sentence composition and further assume that effective ICD configurations may contain internal statistical patterns that can be captured by Lever-LM. Then a dataset with effective ICD sequences is constructed to train Lever-LM. After training, given novel queries, new ICD sequences are configured by the trained Lever-LM to solve vision-language tasks through ICL. Experiments show that these ICD sequences can improve the ICL performance of two LVLMs compared with some strong baselines in Visual Question Answering and Image Captioning, validating that Lever-LM can really capture the statistical patterns for levering LVLMs. The code is available at \url{https://github.com/ForJadeForest/Lever-LM}.
- Abstract(参考訳): アルキメデスが言うように、この研究では、67Mパラメータを持つ変換器である小さな言語モデル(LM)である \eg を用いて、はるかに大きな視覚言語モデル(LVLM)を9Bパラメータでレバーすることを提案する。
具体的には、この小さな \textbf{Lever-LM} を用いて、LVLMのインコンテキストリアリング(ICL)性能を改善するために、効果的なインコンテキストデモ(ICD)シーケンスを構成する。
従来の研究では、デモの選択や順序付けのような多様なICD構成がICLのパフォーマンスに大きく影響を与えており、効果的なICDシーケンスの設定の重要性を強調している。
このことから,本手法は人間の文構成のミラープロセスであり,実効性のあるICD構成は,レバー・LMが捉えることのできる内部統計パターンを含む可能性があると仮定する。
次に、効率的なICDシーケンスを持つデータセットを構築して、Levan-LMをトレーニングする。
トレーニングの後、新しいクエリが与えられた後、トレーニングされたLevan-LMによって新しいIDCシーケンスが設定され、ICLを介して視覚言語タスクが解決される。
実験により、これらのICDシーケンスは2つのLVLMのICL性能を視覚質問応答と画像キャプションの強いベースラインと比較し、Levan-LMが実際にLVLMを上昇させる統計的パターンを捉えることができることを示した。
コードは \url{https://github.com/ForJadeForest/Lever-LM} で公開されている。
関連論文リスト
- In-Context Learning with Reinforcement Learning for Incomplete Utterance Rewriting [33.89176174108559]
大規模言語モデル(LLM)の文脈内学習は、いくつかの例で拡張された命令に基づいて予測を行う。
ICLの既存の例選択方法はスパースまたは高密度レトリバーを使用し、有効性能を導出する。
本稿では,言語モデルセレクタとLLMジェネレータから構成される実例選択(RLS)のためのポリシーベース強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-23T12:32:12Z) - Is In-Context Learning Sufficient for Instruction Following in LLMs? [38.29072578390376]
実効性はあるものの, MT-Bench の命令微調整と比較すると, ICL とAL とのアライメントは依然として不十分であることがわかった。
我々は、我々の知識、ICLの体系的比較、低データ体制における命令追従のための命令微調整(IFT)を初めて提供する。
論文 参考訳(メタデータ) (2024-05-30T09:28:56Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models [70.25499865569353]
本稿では,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを紹介する。
MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-20T09:42:43Z) - Towards Multimodal In-Context Learning for Vision & Language Models [21.69457980865084]
VLM(State-of-the-the-art Vision-Language Models)は、ビジョンと言語のモダリティを基盤としている。
本稿では, 効果的なデータ混合を用いた, 単純かつ驚くほど効果的なマルチターンカリキュラムベースの学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T13:53:37Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - How to Configure Good In-Context Sequence for Visual Question Answering [19.84012680826303]
本研究では,VQA(Visual Question Answering)をケーススタディとして,多様なコンテキスト内構成を探索する。
具体的には、コンテキスト内構成を探索するために、多様な検索手法を設計し、検索したデモを操作するために異なる戦略を採用する。
適用されたLVLMの3つの重要な内部特性を明らかにし、どの戦略がICL VQA性能を継続的に改善できるかを示す。
論文 参考訳(メタデータ) (2023-12-04T02:03:23Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。