論文の概要: ICD-LM: Configuring Vision-Language In-Context Demonstrations by
Language Modeling
- arxiv url: http://arxiv.org/abs/2312.10104v1
- Date: Fri, 15 Dec 2023 03:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 18:34:42.077372
- Title: ICD-LM: Configuring Vision-Language In-Context Demonstrations by
Language Modeling
- Title(参考訳): ICD-LM:言語モデリングによる視覚言語インテクスト記述の構成
- Authors: Yingzhe Peng, Xu Yang, Haoxuan Ma, Shuo Xu, Chi Zhang, Yucheng Han,
Hanwang Zhang
- Abstract要約: 本稿では,LVLM(Large Vision-Language Model)のための強力なICD(In-Context Demonstration)シーケンスの構成法について述べる。
我々は、効率的なIDDシーケンスを生成するために設計されたICD言語モデル(ICD-LM)を導入する。
- 参考スコア(独自算出の注目度): 47.9693699034406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies how to configure powerful In-Context Demonstration (ICD)
sequences for a Large Vision-Language Model (LVLM) to solve Vision-Language
tasks through In-Context Learning (ICL). After observing that configuring an
ICD sequence is a mirror process of composing a sentence, i.e., just as a
sentence can be composed word by word via a Language Model, an ICD sequence can
also be configured one by one. Consequently, we introduce an ICD Language Model
(ICD-LM) specifically designed to generate effective ICD sequences. This
involves creating a dataset of hand-crafted ICD sequences for various query
samples and using it to train the ICD-LM. Our approach, diverging from
traditional methods in NLP that select and order ICDs separately, enables to
simultaneously learn how to select and order ICDs, enhancing the effect of the
sequences. Moreover, during data construction, we use the LVLM intended for ICL
implementation to validate the strength of each ICD sequence, resulting in a
model-specific dataset and the ICD-LM trained by this dataset is also
model-specific. We validate our methodology through experiments in Visual
Question Answering and Image Captioning, confirming the viability of using a
Language Model for ICD configuration. Our comprehensive ablation studies
further explore the impact of various dataset construction and ICD-LM
development settings on the outcomes. The code is given in
https://github.com/ForJadeForest/ICD-LM.
- Abstract(参考訳): 本稿では,LVLM(Large Vision-Language Model)のための強力なIn-Context Demonstration (ICD) シーケンスをどのように構成し,In-Context Learning (ICL) による視覚-Languageタスクを解決するかを検討する。
icdシーケンスの構成は、文を構成するミラープロセスである、すなわち、言語モデルを介して文を単語単位で構成できるように観察した後、icdシーケンスを1つずつ構成することもできる。
その結果、有効なICDシーケンスを生成するために設計されたICD言語モデル(ICD-LM)を導入する。
これには、さまざまなクエリサンプルのために手作りのICDシーケンスのデータセットを作成し、それをICD-LMのトレーニングに使用することが含まれる。
提案手法は,ICDを別々に選択・注文する従来の方法と異なり,同時にICDを選択・注文する方法を学習し,シーケンスの効果を高める。
さらに、データ構築中に、ICL実装を意図したLVLMを使用して、各ICDシーケンスの強度を検証することにより、モデル固有のデータセットと、このデータセットによってトレーニングされたICD-LMもモデル固有である。
ICD設定のための言語モデルを用いて,視覚的質問応答と画像キャプションの実験により,我々の方法論を検証した。
本研究は,各種データセット構築およびICD-LM開発環境が結果に及ぼす影響について検討する。
コードはhttps://github.com/ForJadeForest/ICD-LMで公開されている。
関連論文リスト
- CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - The LSCD Benchmark: a Testbed for Diachronic Word Meaning Tasks [3.8042401909826964]
Lexical Semantic Change Detection (LSCD) は複雑な補題レベルのタスクである。
このリポジトリは、WiC、WSI、LSCDのモデル評価を可能にすることで、タスクのモジュラリティを反映している。
論文 参考訳(メタデータ) (2024-03-29T22:11:54Z) - Accurate and Well-Calibrated ICD Code Assignment Through Attention Over
Diverse Label Embeddings [1.201425717264024]
ICDコードを臨床テキストに手動で割り当てるのは、時間がかかり、エラーが発生し、コストがかかる。
本稿では,ICDの自動符号化のための新しい手法について述べる。
MIMIC-IIIデータセットの異なる分割による実験は、提案手法がICD符号化における現在の最先端モデルより優れていることを示している。
論文 参考訳(メタデータ) (2024-02-05T16:40:23Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Mimic-IV-ICD: A new benchmark for eXtreme MultiLabel Classification [15.447334151024005]
本稿では,MIMIC-IV から派生した大規模な EHR データセットを用いた ICD-10 符号化のための公開ベンチマークスイートを提案する。
我々はMIMIC-IVデータを用いた新しいICD-9ベンチマークを作成し、MIMIC-IIIよりも多くのデータポイントと多くのICDコードを提供する。
論文 参考訳(メタデータ) (2023-04-27T07:36:14Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - MirrorWiC: On Eliciting Word-in-Context Representations from Pretrained
Language Models [61.48034827104998]
言語モデルにおけるワード・イン・コンテクスト(WiC)表現を改善するための教師なしアプローチを提案する。
MirrorWiCは標準的なコントラスト学習設定内でコンテキスト対応の単語表現を学習する。
提案した完全教師なしMirrorWiCモデルは,モノリンガル,マルチリンガル,クロスリンガルのすべてのセットアップにおいて,市販のPLMよりも大幅に向上する。
論文 参考訳(メタデータ) (2021-09-19T22:19:01Z) - Conversational Question Reformulation via Sequence-to-Sequence
Architectures and Pretrained Language Models [56.268862325167575]
本稿では、列列列構造と事前学習言語モデル(PLM)を用いた会話型質問修正(CQR)の実証的研究について述べる。
我々はPLMを利用して、CQRタスクの目的である最大推定におけるトークン・トークン・トークン・トークンの独立性の強い仮定に対処する。
我々は、最近導入されたCANARDデータセットの微調整PLMをドメイン内タスクとして評価し、TREC 2019 CAsT Trackのデータからドメイン外タスクとしてモデルを検証する。
論文 参考訳(メタデータ) (2020-04-04T11:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。