論文の概要: Provoking Multi-modal Few-Shot LVLM via Exploration-Exploitation In-Context Learning
- arxiv url: http://arxiv.org/abs/2506.09473v1
- Date: Wed, 11 Jun 2025 07:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.704823
- Title: Provoking Multi-modal Few-Shot LVLM via Exploration-Exploitation In-Context Learning
- Title(参考訳): 探索的探索的インコンテキスト学習によるマルチモーダルFew-Shot LVLMの実現
- Authors: Cheng Chen, Yunpeng Zhai, Yifan Zhao, Jinyang Gao, Bolin Ding, Jia Li,
- Abstract要約: 本稿では、LVLM(Large Vision-Language Models)のICLについて検討し、マルチモーダルな実演選択のポリシーについて検討する。
マルチモーダル情報を融合し,適切な実演を総合的に適応的に選択する政策を探求する新たな探索・探索強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 45.06983025267863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL), a predominant trend in instruction learning, aims at enhancing the performance of large language models by providing clear task guidance and examples, improving their capability in task understanding and execution. This paper investigates ICL on Large Vision-Language Models (LVLMs) and explores the policies of multi-modal demonstration selection. Existing research efforts in ICL face significant challenges: First, they rely on pre-defined demonstrations or heuristic selecting strategies based on human intuition, which are usually inadequate for covering diverse task requirements, leading to sub-optimal solutions; Second, individually selecting each demonstration fails in modeling the interactions between them, resulting in information redundancy. Unlike these prevailing efforts, we propose a new exploration-exploitation reinforcement learning framework, which explores policies to fuse multi-modal information and adaptively select adequate demonstrations as an integrated whole. The framework allows LVLMs to optimize themselves by continually refining their demonstrations through self-exploration, enabling the ability to autonomously identify and generate the most effective selection policies for in-context learning. Experimental results verify the superior performance of our approach on four Visual Question-Answering (VQA) datasets, demonstrating its effectiveness in enhancing the generalization capability of few-shot LVLMs.
- Abstract(参考訳): In-context Learning (ICL) は,タスクの理解と実行の能力向上を図り,タスク指導と実例を提供することで,大規模言語モデルの性能向上を目指す。
本稿では、LVLM(Large Vision-Language Models)のICLについて検討し、マルチモーダルな実演選択のポリシーについて検討する。
ひとつは、人間の直観に基づく事前定義されたデモンストレーションやヒューリスティックな選択戦略に依存しており、これは通常、様々なタスク要求をカバーするのに不適であり、最適化されたソリューションにつながる。
これらの取り組みとは違って,マルチモーダル情報を融合し,適切な実演を総合的に適応的に選択する政策を探求する新たな探索・探索強化学習フレームワークを提案する。
このフレームワークは、LVLMが自己探索を通じてデモを継続的に洗練することにより、自己最適化を可能にし、コンテキスト内学習において最も効果的な選択ポリシーを自律的に識別し、生成することを可能にする。
実験により,4つの視覚質問応答(VQA)データセットに対するアプローチの優れた性能を検証し,その有効性を実証した。
関連論文リスト
- DICE: Dynamic In-Context Example Selection in LLM Agents via Efficient Knowledge Transfer [50.64531021352504]
インコンテキスト学習(ICL)によって強化された大規模言語モデルベースエージェントは、複雑な推論やツール使用タスクにおいて強力な能力を示している。
既存のアプローチは典型的には、エージェントやマルチステップの設定を含むサンプルの選択に依存している。
推論の各ステップにおいて最も関連性の高い実演を選択できるエージェントタスクのための理論的に基礎付けられた ICL フレームワーク DICE を提案する。
論文 参考訳(メタデータ) (2025-07-31T13:42:14Z) - True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - Learning to Select In-Context Demonstration Preferred by Large Language Model [21.077656767563255]
In-context Learning (ICL) では、大規模な言語モデルで推論中に新しいタスクに適応できる。
我々は、ILLのデモ選択を直接最適化するためにLLMフィードバックを利用する新しい生成的嗜好学習フレームワークGenICLを提案する。
11のタスクカテゴリにまたがる19のデータセットの実験では、GenICLは、最も効果的なデモを選択する際に、既存の方法よりも優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-05-26T13:26:56Z) - Demonstration Selection for In-Context Learning via Reinforcement Learning [16.103533806505403]
Relevance-Diversity Enhanced Selection (RDES)は、多様な参照デモの選択を最適化するための革新的なアプローチである。
RDESはQ-learningのようなフレームワークとPPOベースの変種を使用して、多様性を最大化するデモを動的に識別する。
RDESは10基のベースラインに比べて性能を著しく向上することを示した。
論文 参考訳(メタデータ) (2024-12-05T08:33:52Z) - Improving Generalization in Visual Reasoning via Self-Ensemble [0.0]
本稿では,パラメータを更新せずにモデルの一般化と視覚的推論を改善する手法であるセルフアンサンブルを提案する。
私たちの重要な洞察は、LVLM自体が他のLVLMを必要とせずにアンサンブルできるということです。
論文 参考訳(メタデータ) (2024-10-28T10:04:40Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Large Language Models Know What Makes Exemplary Contexts [42.90814615222177]
In-context Learning (ICL) は、Large Language Model (LLM) の発展において重要な機能であることが証明されている。
本稿では,LLMのための統合フレームワークを提案する。このフレームワークにより,影響力のあるインコンテキストのサンプルを自己選択してコンテキストを構成することができる。
論文 参考訳(メタデータ) (2024-08-14T12:32:41Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - How Does the Textual Information Affect the Retrieval of Multimodal In-Context Learning? [11.374310255084753]
本稿では,マルチモーダル・イン・コンテクスト学習効率を向上させるニューラルネットワークを用いたMLLM-Retriever MSIERを提案する。
このアプローチは3つの異なるタスクにわたる広範なテストを通じて検証され、メソッドの有効性が実証される。
この探索は、マルチモーダルデータの戦略的利用を通じてMLLMにおける洗練された文脈内学習の可能性を強調し、今後の進歩の道を開くものである。
論文 参考訳(メタデータ) (2024-04-19T13:05:37Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。