論文の概要: Provoking Multi-modal Few-Shot LVLM via Exploration-Exploitation In-Context Learning
- arxiv url: http://arxiv.org/abs/2506.09473v1
- Date: Wed, 11 Jun 2025 07:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.704823
- Title: Provoking Multi-modal Few-Shot LVLM via Exploration-Exploitation In-Context Learning
- Title(参考訳): 探索的探索的インコンテキスト学習によるマルチモーダルFew-Shot LVLMの実現
- Authors: Cheng Chen, Yunpeng Zhai, Yifan Zhao, Jinyang Gao, Bolin Ding, Jia Li,
- Abstract要約: 本稿では、LVLM(Large Vision-Language Models)のICLについて検討し、マルチモーダルな実演選択のポリシーについて検討する。
マルチモーダル情報を融合し,適切な実演を総合的に適応的に選択する政策を探求する新たな探索・探索強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 45.06983025267863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL), a predominant trend in instruction learning, aims at enhancing the performance of large language models by providing clear task guidance and examples, improving their capability in task understanding and execution. This paper investigates ICL on Large Vision-Language Models (LVLMs) and explores the policies of multi-modal demonstration selection. Existing research efforts in ICL face significant challenges: First, they rely on pre-defined demonstrations or heuristic selecting strategies based on human intuition, which are usually inadequate for covering diverse task requirements, leading to sub-optimal solutions; Second, individually selecting each demonstration fails in modeling the interactions between them, resulting in information redundancy. Unlike these prevailing efforts, we propose a new exploration-exploitation reinforcement learning framework, which explores policies to fuse multi-modal information and adaptively select adequate demonstrations as an integrated whole. The framework allows LVLMs to optimize themselves by continually refining their demonstrations through self-exploration, enabling the ability to autonomously identify and generate the most effective selection policies for in-context learning. Experimental results verify the superior performance of our approach on four Visual Question-Answering (VQA) datasets, demonstrating its effectiveness in enhancing the generalization capability of few-shot LVLMs.
- Abstract(参考訳): In-context Learning (ICL) は,タスクの理解と実行の能力向上を図り,タスク指導と実例を提供することで,大規模言語モデルの性能向上を目指す。
本稿では、LVLM(Large Vision-Language Models)のICLについて検討し、マルチモーダルな実演選択のポリシーについて検討する。
ひとつは、人間の直観に基づく事前定義されたデモンストレーションやヒューリスティックな選択戦略に依存しており、これは通常、様々なタスク要求をカバーするのに不適であり、最適化されたソリューションにつながる。
これらの取り組みとは違って,マルチモーダル情報を融合し,適切な実演を総合的に適応的に選択する政策を探求する新たな探索・探索強化学習フレームワークを提案する。
このフレームワークは、LVLMが自己探索を通じてデモを継続的に洗練することにより、自己最適化を可能にし、コンテキスト内学習において最も効果的な選択ポリシーを自律的に識別し、生成することを可能にする。
実験により,4つの視覚質問応答(VQA)データセットに対するアプローチの優れた性能を検証し,その有効性を実証した。
関連論文リスト
- Improving Generalization in Visual Reasoning via Self-Ensemble [0.0]
本稿では,パラメータを更新せずにモデルの一般化と視覚的推論を改善する手法であるセルフアンサンブルを提案する。
私たちの重要な洞察は、LVLM自体が他のLVLMを必要とせずにアンサンブルできるということです。
論文 参考訳(メタデータ) (2024-10-28T10:04:40Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Large Language Models Know What Makes Exemplary Contexts [42.90814615222177]
In-context Learning (ICL) は、Large Language Model (LLM) の発展において重要な機能であることが証明されている。
本稿では,LLMのための統合フレームワークを提案する。このフレームワークにより,影響力のあるインコンテキストのサンプルを自己選択してコンテキストを構成することができる。
論文 参考訳(メタデータ) (2024-08-14T12:32:41Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。