論文の概要: Q-Adapter: Visual Query Adapter for Extracting Textually-related Features in Video Captioning
- arxiv url: http://arxiv.org/abs/2510.10022v1
- Date: Sat, 11 Oct 2025 04:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.740017
- Title: Q-Adapter: Visual Query Adapter for Extracting Textually-related Features in Video Captioning
- Title(参考訳): Q-Adapter: ビデオキャプションにおけるテキスト関連機能抽出のためのビジュアルクエリアダプタ
- Authors: Junan Chen, Trung Thanh Nguyen, Takahiro Komamizu, Ichiro Ide,
- Abstract要約: MLLM(Multimodal Large Language Models)の拡張を目的とした軽量ビジュアルアダプタモジュールを提案する。
Q-Adapterは、学習可能なクエリトークンとゲーティング層をVisionに導入し、外部の監視に頼ることなく、スパース、キャプション関連機能の効果的な抽出を可能にする。
MSR-VTT と MSVD の2つの有名なビデオキャプションデータセットに対して,Q-Adapter の評価を行った。
- 参考スコア(独自算出の注目度): 5.762008844570409
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in video captioning are driven by large-scale pretrained models, which follow the standard "pre-training followed by fine-tuning" paradigm, where the full model is fine-tuned for downstream tasks. Although effective, this approach becomes computationally prohibitive as the model size increases. The Parameter-Efficient Fine-Tuning (PEFT) approach offers a promising alternative, but primarily focuses on the language components of Multimodal Large Language Models (MLLMs). Despite recent progress, PEFT remains underexplored in multimodal tasks and lacks sufficient understanding of visual information during fine-tuning the model. To bridge this gap, we propose Query-Adapter (Q-Adapter), a lightweight visual adapter module designed to enhance MLLMs by enabling efficient fine-tuning for the video captioning task. Q-Adapter introduces learnable query tokens and a gating layer into Vision Encoder, enabling effective extraction of sparse, caption-relevant features without relying on external textual supervision. We evaluate Q-Adapter on two well-known video captioning datasets, MSR-VTT and MSVD, where it achieves state-of-the-art performance among the methods that take the PEFT approach across BLEU@4, METEOR, ROUGE-L, and CIDEr metrics. Q-Adapter also achieves competitive performance compared to methods that take the full fine-tuning approach while requiring only 1.4% of the parameters. We further analyze the impact of key hyperparameters and design choices on fine-tuning effectiveness, providing insights into optimization strategies for adapter-based learning. These results highlight the strong potential of Q-Adapter in balancing caption quality and parameter efficiency, demonstrating its scalability for video-language modeling.
- Abstract(参考訳): ビデオキャプションの最近の進歩は、ダウンストリームタスクのためにフルモデルが微調整される標準的な「事前学習と微調整」パラダイムに従って、大規模な事前訓練モデルによって駆動される。
有効ではあるが、モデルのサイズが大きくなるにつれて、このアプローチは計算的に禁止される。
パラメータ効率の良いファインチューニング(PEFT)アプローチは有望な代替手段を提供するが、主にMLLM(Multimodal Large Language Models)の言語コンポーネントに焦点を当てている。
近年の進歩にもかかわらず、PEFTはマルチモーダルなタスクにおいて過小評価されており、モデルの微調整中に視覚情報の十分な理解が得られていない。
このギャップを埋めるために、ビデオキャプションタスクの効率的な微調整を可能にすることでMLLMを強化する軽量なビジュアルアダプタモジュールであるQuery-Adapter (Q-Adapter)を提案する。
Q-AdapterはVision Encoderに学習可能なクエリトークンとゲーティングレイヤを導入し、外部のテキスト管理に頼ることなく、スパースなキャプション関連機能の効果的な抽出を可能にする。
そこで, BLEU@4, METEOR, ROUGE-L, CIDEr の2つのビデオキャプションデータセット, MSR-VTT と MSVD のQ-Adapter の評価を行い, PEFT の手法を BLEU@4, METEOR, ROUGE-L, CIDEr の計測値に適用した。
Q-Adapterはまた、パラメータの1.4%しか必要とせず、完全な微調整アプローチをとるメソッドと比較して、競合的なパフォーマンスを達成する。
さらに、重要なハイパーパラメータと設計選択が微調整の有効性に与える影響を分析し、アダプタベースの学習のための最適化戦略に関する洞察を提供する。
これらの結果は、キャプションの品質とパラメータ効率のバランスをとるQ-Adapterの強い可能性を強調し、ビデオ言語モデリングのスケーラビリティを示している。
関連論文リスト
- ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Lightweight Modular Parameter-Efficient Tuning for Open-Vocabulary Object Detection [2.1155908599769764]
パラメータ効率の良いオープン語彙オブジェクト検出のための軽量なモジュラーフレームワークUniProj-Detを提案する。
UniProj-Detは事前訓練されたバックボーンを凍結し、学習可能なモダリティトークンを備えたユニバーサル・プロジェクション・モジュールを導入し、最小限のコストで視覚-言語適応を可能にする。
論文 参考訳(メタデータ) (2024-08-20T12:27:53Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - SmartTrim: Adaptive Tokens and Attention Pruning for Efficient
Vision-Language Models [35.5601603013045]
視覚言語モデル(VLM)のための適応加速度フレームワークであるSmartTrimを提案する。
軽量なモジュールを元のバックボーンに統合し、各レイヤ内で冗長なトークン表現とアテンションヘッドを特定し、実行します。
我々は,プレナードモデルの予測と完全容量との整合性を高めるための自己蒸留戦略を考案した。
論文 参考訳(メタデータ) (2023-05-24T11:18:00Z) - Towards Parameter-Efficient Integration of Pre-Trained Language Models
In Temporal Video Grounding [37.199310579532884]
本稿では,TVG(Temporal Video Grounding)の課題について検討する。
TVGは、未トリミングビデオと自然言語による文クエリを前提として、ビデオ内のアクションインスタンスの時間的境界を認識し、決定することを目的としている。
最近の研究は、より高価なトレーニングを犠牲にして、大規模な事前学習言語モデル(PLM)によるクエリ入力を改善することで、この課題に対処している。
論文 参考訳(メタデータ) (2022-09-26T08:11:19Z) - Parameter-Efficient Image-to-Video Transfer Learning [66.82811235484607]
様々な下流タスクのための大規模な事前訓練されたモデルが、最近、有望なパフォーマンスで登場した。
モデルのサイズが拡大しているため、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略がコストがかかる。
本稿では,ビデオタスク毎のパラメータ効率の高い微調整のための新しいスペーシ・アダプタを提案する。
論文 参考訳(メタデータ) (2022-06-27T18:02:29Z) - VL-Adapter: Parameter-Efficient Transfer Learning for
Vision-and-Language Tasks [71.40656211497162]
近年、大規模なテキストコーパスで事前訓練された微調整言語モデルにより、視覚と言語(V&L)タスクが大幅に改善されている。
本稿では,VL-BARTやVL-T5などのV&Lモデルに対して,アダプタに基づくパラメータ効率変換学習手法を提案する。
提案手法は, モデル全体の微調整性能に適合することを示した。
論文 参考訳(メタデータ) (2021-12-13T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。