論文の概要: Unveiling Effective In-Context Configurations for Image Captioning: An External & Internal Analysis
- arxiv url: http://arxiv.org/abs/2507.08021v1
- Date: Tue, 08 Jul 2025 08:07:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.097771
- Title: Unveiling Effective In-Context Configurations for Image Captioning: An External & Internal Analysis
- Title(参考訳): 画像キャプションのための効果的なインコンテキスト構成の展開:外的・内部的分析
- Authors: Li Li, Yongliang Wu, Jingze Zhu, Jiawei Peng, Jianfei Cai, Xu Yang,
- Abstract要約: 自然言語処理(NLP)では、インコンテキスト学習(ICL)の有効性を実証する研究が数多く行われている。
LLM(Large Language Models)の成功に触発された研究者らは、ICL機能を備えたLarge Multimodal Models(LMM)を開発した。
本稿では,画像キャプションタスクにおけるマルチモーダル・イン・コンテクスト学習の総合的な外部および内部調査を行う。
- 参考スコア(独自算出の注目度): 28.52057785196361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolution of large models has witnessed the emergence of In-Context Learning (ICL) capabilities. In Natural Language Processing (NLP), numerous studies have demonstrated the effectiveness of ICL. Inspired by the success of Large Language Models (LLMs), researchers have developed Large Multimodal Models (LMMs) with ICL capabilities. However, explorations of demonstration configuration for multimodal ICL remain preliminary. Additionally, the controllability of In-Context Examples (ICEs) provides an efficient and cost-effective means to observe and analyze the inference characteristics of LMMs under varying inputs. This paper conducts a comprehensive external and internal investigation of multimodal in-context learning on the image captioning task. Externally, we explore demonstration configuration strategies through three dimensions: shot number, image retrieval, and caption assignment. We employ multiple metrics to systematically and thoroughly evaluate and summarize key findings. Internally, we analyze typical LMM attention characteristics and develop attention-based metrics to quantify model behaviors. We also conduct auxiliary experiments to explore the feasibility of attention-driven model acceleration and compression. We further compare performance variations between LMMs with identical model design and pretraining strategies and explain the differences from the angles of pre-training data features. Our study reveals both how ICEs configuration strategies impact model performance through external experiments and characteristic typical patterns through internal inspection, providing dual perspectives for understanding multimodal ICL in LMMs. Our method of combining external and internal analysis to investigate large models, along with our newly proposed metrics, can be applied to broader research areas.
- Abstract(参考訳): 大規模モデルの進化は、インコンテキスト学習(ICL)能力の出現を目撃している。
自然言語処理(NLP)では、ICLの有効性について多くの研究がなされている。
LLM(Large Language Models)の成功に触発された研究者らは、ICL機能を備えたLarge Multimodal Models(LMM)を開発した。
しかし、マルチモーダル ICL の実証構成の探索は予備的なままである。
さらに、インコンテキスト例(ICE)の制御性は、様々な入力の下でLMMの推論特性を観察し解析するための効率的で費用効率の良い手段を提供する。
本稿では,画像キャプションタスクにおけるマルチモーダル・イン・コンテクスト学習の総合的な外部および内部調査を行う。
外部では、ショット数、画像検索、キャプション割り当ての3次元を通して、デモ構成戦略を探索する。
重要な発見を体系的かつ徹底的に評価し、要約するために、複数のメトリクスを使用します。
内部的には、典型的なLMMの注意特性を分析し、モデル行動の定量化のための注意に基づくメトリクスを開発する。
また,注意駆動型モデルアクセラレーションと圧縮の可能性を探るため,補助実験を行った。
さらに,LMMと同一モデル設計と事前学習戦略を比較し,事前学習データの特徴の角度との違いを説明する。
本研究では,外部実験によるICEの構成戦略がモデル性能に与える影響と内部検査による特徴的パターンの両方を明らかにし,LMMにおけるマルチモーダルICLを理解するための2つの視点を提供する。
本手法は, 外部分析と内部解析を組み合わせることで, 大規模モデルと, 新たに提案した指標を併用して, より広範な研究分野に適用することができる。
関連論文リスト
- Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning [12.054910727620154]
視線追跡データは、ユーザの認知状態に関する貴重な洞察を明らかにするが、その構造化された非言語的な性質のために分析することは困難である。
本稿では、視線追跡信号からの認知パターン抽出を促進するために、マルチモーダルな人間-AI協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-24T09:49:53Z) - Enhanced Multimodal Aspect-Based Sentiment Analysis by LLM-Generated Rationales [7.119479942471737]
既存の方法は、画像とテキストの両方からアスペクトや感情に関連する情報を集めるために、事前訓練された小さな言語モデル(SLM)に依存している。
我々は,SLMの意思決定能力とMABSAのためのLLMが提供する付加情報を組み合わせた新しいフレームワークLRSAを提案する。
論文 参考訳(メタデータ) (2025-05-20T15:28:26Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning [39.54891426369773]
モデルのサイズ、アーキテクチャ、パフォーマンスのトレードオフについては、まだ未検討のままです。
本稿では,近年の言語モデルと多様な視覚的バックボーンを統合したMLLMの新しいファミリーであるLLaVA-MOREを紹介する。
公平な比較を保証するため、すべてのアーキテクチャで一貫して適用される統一的なトレーニングプロトコルを使用します。
論文 参考訳(メタデータ) (2025-03-19T18:10:12Z) - A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。
マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文 参考訳(メタデータ) (2025-02-22T20:55:26Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Utilizing Large Language Models for Event Deconstruction to Enhance Multimodal Aspect-Based Sentiment Analysis [2.1329326061804816]
本稿では,イベント分解のためのLarge Language Models (LLMs)を導入し,マルチモーダル・アスペクト・ベース・センチメント分析(MABSA-RL)のための強化学習フレームワークを提案する。
実験の結果,MABSA-RLは2つのベンチマークデータセットにおいて既存手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-18T03:40:45Z) - From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning [47.82447085244952]
マルチモーダル ICL では,タスクごとにモダリティが異なることが示される。
タスク固有のモダリティの影響に導かれ、ICL性能を高めるためのモダリティ駆動型実証戦略を推奨する。
論文 参考訳(メタデータ) (2024-07-01T01:57:21Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
インコンテキストセグメンテーションは、与えられた参照画像を使ってオブジェクトをセグメンテーションすることを目的としている。
既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。
この研究は、新しい視点から問題にアプローチし、コンテキスト内セグメンテーションのための潜在拡散モデルの能力を解き放つ。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。