論文の概要: How to Configure Good In-Context Sequence for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2312.01571v1
- Date: Mon, 4 Dec 2023 02:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 16:48:46.691467
- Title: How to Configure Good In-Context Sequence for Visual Question Answering
- Title(参考訳): 視覚的質問応答のための良質なコンテキスト内シーケンスの設定方法
- Authors: Li Li, Jiawei Peng, Huiyi Chen, Chongyang Gao, Xu Yang
- Abstract要約: 本研究では,VQA(Visual Question Answering)をケーススタディとして,多様なコンテキスト内構成を探索する。
具体的には、コンテキスト内構成を探索するために、多様な検索手法を設計し、検索したデモを操作するために異なる戦略を採用する。
適用されたLVLMの3つの重要な内部特性を明らかにし、どの戦略がICL VQA性能を継続的に改善できるかを示す。
- 参考スコア(独自算出の注目度): 19.84012680826303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the success of Large Language Models in dealing with new tasks
via In-Context Learning (ICL) in NLP, researchers have also developed Large
Vision-Language Models (LVLMs) with ICL capabilities. However, when
implementing ICL using these LVLMs, researchers usually resort to the simplest
way like random sampling to configure the in-context sequence, thus leading to
sub-optimal results. To enhance the ICL performance, in this study, we use
Visual Question Answering (VQA) as case study to explore diverse in-context
configurations to find the powerful ones. Additionally, through observing the
changes of the LVLM outputs by altering the in-context sequence, we gain
insights into the inner properties of LVLMs, improving our understanding of
them. Specifically, to explore in-context configurations, we design diverse
retrieval methods and employ different strategies to manipulate the retrieved
demonstrations. Through exhaustive experiments on three VQA datasets: VQAv2,
VizWiz, and OK-VQA, we uncover three important inner properties of the applied
LVLM and demonstrate which strategies can consistently improve the ICL VQA
performance. Our code is provided in:
https://github.com/GaryJiajia/OFv2_ICL_VQA.
- Abstract(参考訳): NLPにおけるIn-Context Learning (ICL)による新しいタスク処理におけるLarge Language Modelsの成功に触発されて、研究者はICL機能付きLVLM(Large Vision-Language Models)も開発した。
しかしながら、これらのLVLMを用いてICLを実装する場合、研究者は通常、ランダムサンプリングのような最も単純な方法でインコンテキストシーケンスを構成する。
本研究では,視覚質問応答(visual question answering, vqa)をケーススタディとして,多様なコンテキスト内構成を探索し,強みを見出す。
さらに,LVLMの出力の変化をコンテキスト内シーケンスを変えて観察することで,LVLMの内部特性の洞察を得て,その理解を深める。
具体的には、コンテキスト内構成を探索するために、多様な検索方法を設計し、検索されたデモを操作するために異なる戦略を用いる。
VQAv2、VizWiz、OK-VQAの3つのVQAデータセットに対する徹底的な実験により、適用されたLVLMの3つの重要な内部特性を発見し、ICL VQAのパフォーマンスを継続的に改善できる戦略を実証した。
私たちのコードは、https://github.com/GaryJiajia/OFv2_ICL_VQAで提供されます。
関連論文リスト
- Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - LIVE: Learnable In-Context Vector for Visual Question Answering [37.89141789981324]
In-Context Learning (ICL) 機能を備えたLMM(Large Multimodal Models) を開発した。
ICLの適用は通常、2つの大きな課題に直面している。1) より多くのICDを使用すると、推論時間が大きく増加し、2) 性能はICDの選択に敏感になる。
実演からタスク情報を抽出するLearning In-Context VEctor (LIVE)を提案する。
論文 参考訳(メタデータ) (2024-06-19T03:33:45Z) - Is In-Context Learning Sufficient for Instruction Following in LLMs? [38.29072578390376]
実効性はあるものの, MT-Bench の命令微調整と比較すると, ICL とAL とのアライメントは依然として不十分であることがわかった。
我々は、我々の知識、ICLの体系的比較、低データ体制における命令追従のための命令微調整(IFT)を初めて提供する。
論文 参考訳(メタデータ) (2024-05-30T09:28:56Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクの文脈でLLMの実用性を拡張するための新しいアプローチである。
我々は,その文脈学習能力を利用して,映像理解のための実行可能な視覚プログラムを生成する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - kNN-ICL: Compositional Task-Oriented Parsing Generalization with Nearest
Neighbor In-Context Learning [50.40636157214161]
Task-Oriented Parsing (TOP)により、会話アシスタントは自然言語で表現されたユーザーコマンドを解釈できる。
LLMは、自然言語のプロンプトに基づいて、コンピュータプログラムにおいて印象的な性能を達成した。
本稿では,LLMのセマンティック解析機能を活用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-12-17T17:26:50Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。
我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:39:20Z) - Language Models as Knowledge Bases for Visual Word Sense Disambiguation [1.8591405259852054]
本稿では,視覚言語変換器(VL)の検索性能向上のための知識向上手法を提案する。
より具体的には、LLM(Large Language Models)に格納された知識は、ゼロショット方式で適切なプロンプトの助けを借りて検索される。
提案手法は,LLMに格納された知識を視覚的単語センスの曖昧さを解決するために,様々な方法で活用する最初の方法である。
論文 参考訳(メタデータ) (2023-10-03T11:11:55Z) - Learning to Retrieve In-Context Examples for Large Language Models [69.9707552694766]
大規模言語モデル(LLM)は、文脈内で学習する能力を示している。
文脈内学習の有効性は、選択した例の品質に大きく依存する。
高品質なインコンテキストの例を識別可能な高密度検索を反復的に学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-14T05:23:08Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。