Fugu-MT 論文翻訳(概要): Learnable In-Context Vector for Visual Question Answering

論文の概要: Learnable In-Context Vector for Visual Question Answering

arxiv url: http://arxiv.org/abs/2406.13185v1
Date: Wed, 19 Jun 2024 03:33:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 23:19:11.938588
Title: Learnable In-Context Vector for Visual Question Answering
Title（参考訳）: 視覚的質問応答のための学習可能なインコンテキストベクトル
Authors: Yingzhe Peng, Chenduo Hao, Xu Yang, Jiawei Peng, Xinting Hu, Xin Geng,
Abstract要約: 実演から重要なタスク情報を抽出し,大規模マルチモーダルモデル(LMM)におけるICL性能を向上させるための textbfLearnable ICV (L-ICV) を提案する。実験の結果,従来のICLや他の非学習可能なICV手法と比較して,視覚質問応答(VQA)タスクの精度を向上しながら,計算コストを大幅に削減できることがわかった。
参考スコア（独自算出の注目度）: 37.89141789981324
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As language models continue to scale, Large Language Models (LLMs) have exhibited emerging capabilities in In-Context Learning (ICL), enabling them to solve language tasks by prefixing a few in-context demonstrations (ICDs) as context. Inspired by these advancements, researchers have extended these techniques to develop Large Multimodal Models (LMMs) with ICL capabilities. However, applying ICL usually faces two major challenges: 1) using more ICDs will largely increase the inference time and 2) the performance is sensitive to the selection of ICDs. These challenges are further exacerbated in LMMs due to the integration of multiple data types and the combinational complexity of multimodal ICDs. Recently, to address these challenges, some NLP studies introduce non-learnable In-Context Vectors (ICVs) which extract useful task information from ICDs into a single vector and then insert it into the LLM to help solve the corresponding task. However, although useful in simple NLP tasks, these non-learnable methods fail to handle complex multimodal tasks like Visual Question Answering (VQA). In this study, we propose \textbf{Learnable ICV} (L-ICV) to distill essential task information from demonstrations, improving ICL performance in LMMs. Experiments show that L-ICV can significantly reduce computational costs while enhancing accuracy in VQA tasks compared to traditional ICL and other non-learnable ICV methods.
Abstract（参考訳）: 言語モデルが拡大を続けるにつれて、LLM(Large Language Models)は、インコンテキストラーニング(ICL)において新たな能力を示し、いくつかのインコンテキストデモ(ICD)をコンテキストとしてプレフィックスすることで、言語タスクの解決を可能にした。これらの進歩に触発されて、研究者はこれらの技術を拡張し、ICL機能を備えたLMM(Large Multimodal Models)を開発した。しかし、ICLの適用は通常、2つの大きな課題に直面します。 1) より多くのICDを使用すると、推論時間が大幅に増加する。 2) 性能はICDの選択に敏感である。これらの課題は、複数のデータ型の統合とマルチモーダルIDDの組合せ複雑さにより、LMMにおいてさらに悪化している。近年、これらの課題に対処するため、NLP研究ではICDから有用なタスク情報を1つのベクトルに抽出し、それに対応するタスクをLLMに挿入する非学習型In-Context Vectors (ICVs)を導入している。しかし、単純なNLPタスクでは有用であるが、これらの非学習可能なメソッドはVisual Question Answering (VQA)のような複雑なマルチモーダルタスクを処理できない。本研究では,実演から重要なタスク情報を抽出し,LMMにおけるICL性能を向上させるために,textbf{Learnable ICV} (L-ICV)を提案する。実験により,従来のICLや他の非学習可能なICV手法と比較して,VQAタスクの精度を向上しながら,L-ICVは計算コストを大幅に削減できることが示された。

関連論文リスト

ContextNav: Towards Agentic Multimodal In-Context Learning [85.05420047017513]
ContextNavは、自動検索のスケーラビリティと人間のようなキュレーションの品質と適応性を統合するエージェントフレームワークである。リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。実験の結果、ContextNavはさまざまなデータセットで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-10-06T07:49:52Z)
M2IV: Towards Efficient and Fine-grained Multimodal In-Context Learning in Large Vision-Language Models [11.542439154523647]
学習可能なtextbfVectors を LVLM に直接組み込んだ明示的なデモンストレーションを代用する textbfM2IV を提案する。 M2IVは、トレーニングを通じて堅牢なクロスモーダル忠実度と微粒なセマンティック蒸留を実現する。実験の結果、M2IVはVanilla ICLと先行表現工学のアプローチを超越していることがわかった。
論文参考訳（メタデータ） (2025-04-06T22:02:21Z)
Advancing Multimodal In-Context Learning in Large Vision-Language Models with Task-aware Demonstrations [0.0]
LVLM(Large Vision-Language Models)の重要な機能として,マルチモーダルインコンテキスト学習(ICL)が登場している。我々はマルチモーダル ICL の根底にあるコアメカニズムに光を当て、ロバストなインコンテキストのデモシーケンスを構成する上で、タスクマッピングが重要な要素であると認識した。タスク認識機能を備えた軽量で強力なデコーダのみの変換器である textitSabER を提案する。
論文参考訳（メタデータ） (2025-03-05T16:33:10Z)
Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding [71.01099784480597]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、様々なタスクで優れる In-Context Contrastive Decoding (ICCD)を導入する。
論文参考訳（メタデータ） (2025-02-19T14:04:46Z)
Implicit In-context Learning [37.0562059811099]
In-context Learning (ICL)は、大規模な言語モデルに対して、テストクエリの前にいくつかの実演例をプレフィックスすることで、推論中に目に見えないタスクに適応する権限を与える。 Inlicit In-context Learning (I2CL)は、従来のICLにまつわる課題に、アクティベーション空間内の実演例を吸収することで対処する革新的なパラダイムである。 I2CLは、ゼロショットコストで数ショットのパフォーマンスを達成し、デモ例のバリエーションに対して堅牢性を示す。
論文参考訳（メタデータ） (2024-05-23T14:57:52Z)
VL-ICL Bench: The Devil in the Details of Multimodal In-Context Learning [12.450293825734313]
大規模言語モデル(LLM)は、創発的な文脈内学習(ICL)を示すことで有名である。本研究では,マルチモーダルインコンテキスト学習のためのベンチマークVL-ICL Benchを提案する。我々は,このベンチマークスイートに対して最先端のVLLMの能力を評価する。
論文参考訳（メタデータ） (2024-03-19T21:31:56Z)
Can MLLMs Perform Text-to-Image In-Context Learning? [11.303734988815016]
テキスト・ツー・イメージ ICL (T2I-ICL) の特徴と潜在的な用途はいまだ検討されていない。我々は6つの最先端マルチモーダル言語モデル(MLLM)をベンチマークする。我々は、主な課題を、マルチモーダルと画像生成の固有の複雑さとして認識し、微調整やチェーン・オブ・ソートのような戦略がこれらの困難を緩和する助けとなることを示す。
論文参考訳（メタデータ） (2024-02-02T10:30:05Z)
kNN-ICL: Compositional Task-Oriented Parsing Generalization with Nearest Neighbor In-Context Learning [50.40636157214161]
Task-Oriented Parsing (TOP)により、会話アシスタントは自然言語で表現されたユーザーコマンドを解釈できる。 LLMは、自然言語のプロンプトに基づいて、コンピュータプログラムにおいて印象的な性能を達成した。本稿では,LLMのセマンティック解析機能を活用することに焦点を当てる。
論文参考訳（メタデータ） (2023-12-17T17:26:50Z)
How to Configure Good In-Context Sequence for Visual Question Answering [19.84012680826303]
本研究では,VQA(Visual Question Answering)をケーススタディとして,多様なコンテキスト内構成を探索する。具体的には、コンテキスト内構成を探索するために、多様な検索手法を設計し、検索したデモを操作するために異なる戦略を採用する。適用されたLVLMの3つの重要な内部特性を明らかにし、どの戦略がICL VQA性能を継続的に改善できるかを示す。
論文参考訳（メタデータ） (2023-12-04T02:03:23Z)
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文参考訳（メタデータ） (2023-11-30T03:59:31Z)
In-context Vectors: Making In Context Learning More Effective and Controllable Through Latent Space Steering [37.334374583093165]
大規模言語モデル(LLM)は、コンテキスト内学習能力の出現を示す。 In-context vectors (ICV) としてコンテキスト内学習をリキャストする代替手法を提案する。 ICVは、標準のコンテキスト内学習よりも優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-11T21:19:44Z)
Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-11-03T14:39:20Z)
Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文参考訳（メタデータ） (2023-05-22T13:18:17Z)
ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。 ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文参考訳（メタデータ） (2023-03-09T06:24:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。