Fugu-MT 論文翻訳(概要): Lever LM: Configuring In-Context Sequence to Lever Large Vision Language Models

論文の概要: Lever LM: Configuring In-Context Sequence to Lever Large Vision Language Models

arxiv url: http://arxiv.org/abs/2312.10104v4
Date: Thu, 31 Oct 2024 03:02:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.0963
Title: Lever LM: Configuring In-Context Sequence to Lever Large Vision Language Models
Title（参考訳）: Lever LM: 大規模ビジョン言語モデルを活用するためのインコンテキストシーケンスの設定
Authors: Xu Yang, Yingzhe Peng, Haoxuan Ma, Shuo Xu, Chi Zhang, Yucheng Han, Hanwang Zhang,
Abstract要約: 我々は,67Mパラメータを持つ変換器である小言語モデル(LM)を用いて,9Bパラメータを持つはるかに大きな視覚言語モデル(LVLM)をレバーすることを提案する。具体的には、この textbfLever-LM を用いて、LVLM のインコンテキストリアリング(ICL)性能を改善するために、効果的なインコンテキスト・デモ(ICD)シーケンスを構成する。
参考スコア（独自算出の注目度）: 45.67877482179697
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As Archimedes famously said, ``Give me a lever long enough and a fulcrum on which to place it, and I shall move the world'', in this study, we propose to use a tiny Language Model (LM), \eg, a Transformer with 67M parameters, to lever much larger Vision-Language Models (LVLMs) with 9B parameters. Specifically, we use this tiny \textbf{Lever-LM} to configure effective in-context demonstration (ICD) sequences to improve the In-Context Learinng (ICL) performance of LVLMs. Previous studies show that diverse ICD configurations like the selection and ordering of the demonstrations heavily affect the ICL performance, highlighting the significance of configuring effective ICD sequences. Motivated by this and by re-considering the the process of configuring ICD sequence, we find this is a mirror process of human sentence composition and further assume that effective ICD configurations may contain internal statistical patterns that can be captured by Lever-LM. Then a dataset with effective ICD sequences is constructed to train Lever-LM. After training, given novel queries, new ICD sequences are configured by the trained Lever-LM to solve vision-language tasks through ICL. Experiments show that these ICD sequences can improve the ICL performance of two LVLMs compared with some strong baselines in Visual Question Answering and Image Captioning, validating that Lever-LM can really capture the statistical patterns for levering LVLMs. The code is available at \url{https://github.com/ForJadeForest/Lever-LM}.
Abstract（参考訳）: アルキメデスが言うように、この研究では、67Mパラメータを持つ変換器である小さな言語モデル(LM)である \eg を用いて、はるかに大きな視覚言語モデル(LVLM)を9Bパラメータでレバーすることを提案する。具体的には、この小さな \textbf{Lever-LM} を用いて、LVLMのインコンテキストリアリング(ICL)性能を改善するために、効果的なインコンテキストデモ(ICD)シーケンスを構成する。従来の研究では、デモの選択や順序付けのような多様なICD構成がICLのパフォーマンスに大きく影響を与えており、効果的なICDシーケンスの設定の重要性を強調している。このことから,本手法は人間の文構成のミラープロセスであり,実効性のあるICD構成は,レバー・LMが捉えることのできる内部統計パターンを含む可能性があると仮定する。次に、効率的なICDシーケンスを持つデータセットを構築して、Levan-LMをトレーニングする。トレーニングの後、新しいクエリが与えられた後、トレーニングされたLevan-LMによって新しいIDCシーケンスが設定され、ICLを介して視覚言語タスクが解決される。実験により、これらのICDシーケンスは2つのLVLMのICL性能を視覚質問応答と画像キャプションの強いベースラインと比較し、Levan-LMが実際にLVLMを上昇させる統計的パターンを捉えることができることを示した。コードは \url{https://github.com/ForJadeForest/Lever-LM} で公開されている。

関連論文リスト

MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。 MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文参考訳（メタデータ） (2025-05-26T08:56:59Z)
A Comparative Study of Learning Paradigms in Large Language Models via Intrinsic Dimension [16.671316494925346]
大規模言語モデル(LLM)の隠れ表現に対する教師付き微調整と文脈内学習の効果について検討する。我々はまず,LLM表現のIDがSFT中にどのように進化するか,ICLにおける実演数によってどのように変化するかを検討する。次に、SFTとICLによって誘導されるIDを比較し、ICLはSFTと比較して常に高いIDを誘導する。
論文参考訳（メタデータ） (2024-12-09T06:37:35Z)
In-Context Learning with Reinforcement Learning for Incomplete Utterance Rewriting [33.89176174108559]
大規模言語モデル(LLM)の文脈内学習は、いくつかの例で拡張された命令に基づいて予測を行う。 ICLの既存の例選択方法はスパースまたは高密度レトリバーを使用し、有効性能を導出する。本稿では,言語モデルセレクタとLLMジェネレータから構成される実例選択(RLS)のためのポリシーベース強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-23T12:32:12Z)
A Practice-Friendly LLM-Enhanced Paradigm with Preference Parsing for Sequential Recommendation [15.153844486572932]
本稿では、シーケンシャルレコメンデータシステム(SRS)のための優先構文解析(P2Rec)を用いた実践的LLM拡張パラダイムを提案する。具体的には、情報再構成段階において、事前学習したSRSモデルの助けを借りて、協調的な情報注入のための新しいユーザレベルSFTタスクを設計する。我々のゴールは、LLMが各ユーザのインタラクションシーケンスから対応する優先度分布を再構築することを学ばせることである。
論文参考訳（メタデータ） (2024-06-01T07:18:56Z)
Is In-Context Learning Sufficient for Instruction Following in LLMs? [38.29072578390376]
実効性はあるものの, MT-Bench の命令微調整と比較すると, ICL とAL とのアライメントは依然として不十分であることがわかった。我々は、我々の知識、ICLの体系的比較、低データ体制における命令追従のための命令微調整(IFT)を初めて提供する。
論文参考訳（メタデータ） (2024-05-30T09:28:56Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models [70.25499865569353]
本稿では,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを紹介する。 MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAを大きく上回っている。
論文参考訳（メタデータ） (2024-03-20T09:42:43Z)
Towards Multimodal In-Context Learning for Vision & Language Models [21.69457980865084]
VLM(State-of-the-the-art Vision-Language Models)は、ビジョンと言語のモダリティを基盤としている。本稿では, 効果的なデータ混合を用いた, 単純かつ驚くほど効果的なマルチターンカリキュラムベースの学習手法を提案する。
論文参考訳（メタデータ） (2024-03-19T13:53:37Z)
Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文参考訳（メタデータ） (2023-12-21T05:32:49Z)
CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文参考訳（メタデータ） (2023-12-04T05:13:59Z)
InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。 InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-12T09:58:16Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。