論文の概要: CAMA: Enhancing Multimodal In-Context Learning with Context-Aware Modulated Attention
- arxiv url: http://arxiv.org/abs/2505.17097v1
- Date: Wed, 21 May 2025 04:25:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.559278
- Title: CAMA: Enhancing Multimodal In-Context Learning with Context-Aware Modulated Attention
- Title(参考訳): CAMA:コンテキストアウェアによるマルチモーダル・インコンテキスト学習の実現
- Authors: Yanshu Li, JianJiang Yang, Bozheng Li, Ruixiang Tang,
- Abstract要約: マルチモーダル・イン・コンテキスト・ラーニング(ICL)により、大きな視覚言語モデル(LVLM)が新しいタスクに効率的に適応できる。
現在の研究は、LVLMの内部機構を見越しながら、シーケンス構成の最適化に重点を置いている。
LVLMアテンションログを直接校正するプラグイン・アンド・プレイ方式であるCAMA(Context-Aware Modulated Attention)を提案する。
- 参考スコア(独自算出の注目度): 11.247500151309646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal in-context learning (ICL) enables large vision-language models (LVLMs) to efficiently adapt to novel tasks, supporting a wide array of real-world applications. However, multimodal ICL remains unstable, and current research largely focuses on optimizing sequence configuration while overlooking the internal mechanisms of LVLMs. In this work, we first provide a theoretical analysis of attentional dynamics in multimodal ICL and identify three core limitations of standard attention that ICL impair performance. To address these challenges, we propose Context-Aware Modulated Attention (CAMA), a simple yet effective plug-and-play method for directly calibrating LVLM attention logits. CAMA is training-free and can be seamlessly applied to various open-source LVLMs. We evaluate CAMA on four LVLMs across six benchmarks, demonstrating its effectiveness and generality. CAMA opens new opportunities for deeper exploration and targeted utilization of LVLM attention dynamics to advance multimodal reasoning.
- Abstract(参考訳): マルチモーダル・イン・コンテキスト・ラーニング(ICL)により、大規模な視覚言語モデル(LVLM)が新しいタスクに効率的に適応し、様々な現実世界のアプリケーションをサポートすることができる。
しかし、マルチモーダルICLは依然として不安定であり、現在の研究はLVLMの内部機構を見越しながらシーケンス構成の最適化に重点を置いている。
本稿ではまず,マルチモーダルICLにおける注意力学の理論的解析を行い,ICLが性能を損なう3つの標準注意の限界を同定する。
これらの課題に対処するために,LVLMアテンションログを直接校正するための簡易かつ効果的なプラグアンドプレイ方式であるコンテキストアウェア変調注意(CAMA)を提案する。
CAMAはトレーニングフリーで、様々なオープンソースのLVLMにシームレスに適用できる。
6つのベンチマークで4つのLVLM上でCAMAを評価し,その有効性と汎用性を実証した。
CAMAは、マルチモーダル推論を推し進めるために、より深い探索とLVLMアテンションダイナミクスのターゲット利用の新たな機会を開く。
関連論文リスト
- Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。
ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文 参考訳(メタデータ) (2025-03-06T15:29:13Z) - Advancing Multimodal In-Context Learning in Large Vision-Language Models with Task-aware Demonstrations [0.0]
LVLM(Large Vision-Language Models)の重要な機能として,マルチモーダルインコンテキスト学習(ICL)が登場している。
我々はマルチモーダル ICL の根底にあるコアメカニズムに光を当て、ロバストなインコンテキストのデモシーケンスを構成する上で、タスクマッピングが重要な要素であると認識した。
タスク認識機能を備えた軽量で強力なデコーダのみの変換器である textitSabER を提案する。
論文 参考訳(メタデータ) (2025-03-05T16:33:10Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs [83.24033574914425]
視覚的問題解決に関わる知覚と推論のプロセスを切り離すために設計された革新的フレームワークであるPrismを提示する。
プリズムは、VLMを利用してテキスト形式で視覚情報を抽出・調音する知覚段階と、抽出された視覚情報に基づいて応答を定式化する推論段階と、2つの異なる段階から構成される。
私たちの分析フレームワークは、視覚言語タスクのコスト効率のよいソリューションとして、Prismの可能性について、いくつかの貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T17:54:03Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。