論文の概要: ICD-LM: Configuring Vision-Language In-Context Demonstrations by
Language Modeling
- arxiv url: http://arxiv.org/abs/2312.10104v1
- Date: Fri, 15 Dec 2023 03:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 18:34:42.077372
- Title: ICD-LM: Configuring Vision-Language In-Context Demonstrations by
Language Modeling
- Title(参考訳): ICD-LM:言語モデリングによる視覚言語インテクスト記述の構成
- Authors: Yingzhe Peng, Xu Yang, Haoxuan Ma, Shuo Xu, Chi Zhang, Yucheng Han,
Hanwang Zhang
- Abstract要約: 本稿では,LVLM(Large Vision-Language Model)のための強力なICD(In-Context Demonstration)シーケンスの構成法について述べる。
我々は、効率的なIDDシーケンスを生成するために設計されたICD言語モデル(ICD-LM)を導入する。
- 参考スコア(独自算出の注目度): 47.9693699034406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies how to configure powerful In-Context Demonstration (ICD)
sequences for a Large Vision-Language Model (LVLM) to solve Vision-Language
tasks through In-Context Learning (ICL). After observing that configuring an
ICD sequence is a mirror process of composing a sentence, i.e., just as a
sentence can be composed word by word via a Language Model, an ICD sequence can
also be configured one by one. Consequently, we introduce an ICD Language Model
(ICD-LM) specifically designed to generate effective ICD sequences. This
involves creating a dataset of hand-crafted ICD sequences for various query
samples and using it to train the ICD-LM. Our approach, diverging from
traditional methods in NLP that select and order ICDs separately, enables to
simultaneously learn how to select and order ICDs, enhancing the effect of the
sequences. Moreover, during data construction, we use the LVLM intended for ICL
implementation to validate the strength of each ICD sequence, resulting in a
model-specific dataset and the ICD-LM trained by this dataset is also
model-specific. We validate our methodology through experiments in Visual
Question Answering and Image Captioning, confirming the viability of using a
Language Model for ICD configuration. Our comprehensive ablation studies
further explore the impact of various dataset construction and ICD-LM
development settings on the outcomes. The code is given in
https://github.com/ForJadeForest/ICD-LM.
- Abstract(参考訳): 本稿では,LVLM(Large Vision-Language Model)のための強力なIn-Context Demonstration (ICD) シーケンスをどのように構成し,In-Context Learning (ICL) による視覚-Languageタスクを解決するかを検討する。
icdシーケンスの構成は、文を構成するミラープロセスである、すなわち、言語モデルを介して文を単語単位で構成できるように観察した後、icdシーケンスを1つずつ構成することもできる。
その結果、有効なICDシーケンスを生成するために設計されたICD言語モデル(ICD-LM)を導入する。
これには、さまざまなクエリサンプルのために手作りのICDシーケンスのデータセットを作成し、それをICD-LMのトレーニングに使用することが含まれる。
提案手法は,ICDを別々に選択・注文する従来の方法と異なり,同時にICDを選択・注文する方法を学習し,シーケンスの効果を高める。
さらに、データ構築中に、ICL実装を意図したLVLMを使用して、各ICDシーケンスの強度を検証することにより、モデル固有のデータセットと、このデータセットによってトレーニングされたICD-LMもモデル固有である。
ICD設定のための言語モデルを用いて,視覚的質問応答と画像キャプションの実験により,我々の方法論を検証した。
本研究は,各種データセット構築およびICD-LM開発環境が結果に及ぼす影響について検討する。
コードはhttps://github.com/ForJadeForest/ICD-LMで公開されている。
関連論文リスト
- In-Context Learning with Reinforcement Learning for Incomplete Utterance Rewriting [33.89176174108559]
大規模言語モデル(LLM)の文脈内学習は、いくつかの例で拡張された命令に基づいて予測を行う。
ICLの既存の例選択方法はスパースまたは高密度レトリバーを使用し、有効性能を導出する。
本稿では,言語モデルセレクタとLLMジェネレータから構成される実例選択(RLS)のためのポリシーベース強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-23T12:32:12Z) - A Practice-Friendly LLM-Enhanced Paradigm with Preference Parsing for Sequential Recommendation [15.153844486572932]
本稿では、シーケンシャルレコメンデータシステム(SRS)のための優先構文解析(P2Rec)を用いた実践的LLM拡張パラダイムを提案する。
具体的には、情報再構成段階において、事前学習したSRSモデルの助けを借りて、協調的な情報注入のための新しいユーザレベルSFTタスクを設計する。
我々のゴールは、LLMが各ユーザのインタラクションシーケンスから対応する優先度分布を再構築することを学ばせることである。
論文 参考訳(メタデータ) (2024-06-01T07:18:56Z) - Is In-Context Learning Sufficient for Instruction Following in LLMs? [38.29072578390376]
実効性はあるものの, MT-Bench の命令微調整と比較すると, ICL とAL とのアライメントは依然として不十分であることがわかった。
我々は、我々の知識、ICLの体系的比較、低データ体制における命令追従のための命令微調整(IFT)を初めて提供する。
論文 参考訳(メタデータ) (2024-05-30T09:28:56Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models [70.25499865569353]
本稿では,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを紹介する。
MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-20T09:42:43Z) - Towards Multimodal In-Context Learning for Vision & Language Models [21.69457980865084]
VLM(State-of-the-the-art Vision-Language Models)は、ビジョンと言語のモダリティを基盤としている。
本稿では, 効果的なデータ混合を用いた, 単純かつ驚くほど効果的なマルチターンカリキュラムベースの学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T13:53:37Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。