論文の概要: Towards Parameter-Efficient Integration of Pre-Trained Language Models
In Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2209.13359v2
- Date: Thu, 25 May 2023 08:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 23:58:23.131878
- Title: Towards Parameter-Efficient Integration of Pre-Trained Language Models
In Temporal Video Grounding
- Title(参考訳): 時間的ビデオグラウンドにおける事前学習言語モデルのパラメータ効率向上に向けて
- Authors: Erica K. Shimomoto, Edison Marrese-Taylor, Hiroya Takamura, Ichiro
Kobayashi, Hideki Nakayama, Yusuke Miyao
- Abstract要約: 本稿では,TVG(Temporal Video Grounding)の課題について検討する。
TVGは、未トリミングビデオと自然言語による文クエリを前提として、ビデオ内のアクションインスタンスの時間的境界を認識し、決定することを目的としている。
最近の研究は、より高価なトレーニングを犠牲にして、大規模な事前学習言語モデル(PLM)によるクエリ入力を改善することで、この課題に対処している。
- 参考スコア(独自算出の注目度): 37.199310579532884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the task of Temporal Video Grounding (TVG) where, given
an untrimmed video and a natural language sentence query, the goal is to
recognize and determine temporal boundaries of action instances in the video
described by the query. Recent works tackled this task by improving query
inputs with large pre-trained language models (PLM) at the cost of more
expensive training. However, the effects of this integration are unclear, as
these works also propose improvements in the visual inputs. Therefore, this
paper studies the effects of PLMs in TVG and assesses the applicability of
parameter-efficient training with NLP adapters. We couple popular PLMs with a
selection of existing approaches and test different adapters to reduce the
impact of the additional parameters. Our results on three challenging datasets
show that, without changing the visual inputs, TVG models greatly benefited
from the PLM integration and fine-tuning, stressing the importance of sentence
query representation in this task. Furthermore, NLP adapters were an effective
alternative to full fine-tuning, even though they were not tailored to our
task, allowing PLM integration in larger TVG models and delivering results
comparable to SOTA models. Finally, our results shed light on which adapters
work best in different scenarios.
- Abstract(参考訳): 本稿では,未編集のビデオと自然言語文のクエリが与えられた場合,そのクエリによって記述されたビデオ内のアクションインスタンスの時間的境界を認識し,決定することを目的とした,TVG(Temporal Video Grounding)の課題について検討する。
最近の研究は、より高価なトレーニングコストで大規模事前学習言語モデル(PLM)によるクエリ入力を改善することで、この問題に対処している。
しかし、これらの作業は視覚入力の改善も提案しているため、この統合の効果は明らかではない。
そこで本研究では,TVGにおけるPLMの効果について検討し,NLPアダプタを用いたパラメータ効率訓練の適用性を評価する。
一般的なplmと既存のアプローチを組み合わせることで、追加パラメータの影響を減らすために異なるアダプタをテストする。
3つの挑戦的データセットの結果から,TVGモデルは視覚的入力を変更することなく,PLM統合と微調整の恩恵を受け,このタスクにおける文クエリ表現の重要性を強調した。
さらに、NLPアダプタは、我々のタスクに適合せず、より大きなTVGモデルにPLMを統合することができ、SOTAモデルに匹敵する結果を提供できるにもかかわらず、完全な微調整に代わる効果的な代替品であった。
最後に、我々の結果は、どのアダプタが異なるシナリオで最もうまく機能するかを明らかにしました。
関連論文リスト
- Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - PEMA: An Offsite-Tunable Plug-in External Memory Adaptation for Language Models [6.622419351156256]
プレトレーニング言語モデル (PLM) は、様々な下流のNLPタスクにおいて顕著な性能を示す。
大量の資源を必要とするため、多くのPLM重みは機密である。
本稿では,PEMA(Plug-in external Memory Adaptation)を紹介する。
すべての重みを必要とせずにファインチューニングを可能にするPEFT (Efficient Fine-Tuning) 法。
論文 参考訳(メタデータ) (2023-11-14T23:20:51Z) - AdapterEM: Pre-trained Language Model Adaptation for Generalized Entity
Matching using Adapter-tuning [3.4754314910585626]
本稿では,アダプタをベースとした微調整PrLMのためのパラメータ効率のパラダイムを提案する。
提案手法は,フルスケールのPrLMファインチューニングとプロンプトチューニングのベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-30T04:03:23Z) - LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-04T16:31:37Z) - Exploring Efficient-tuning Methods in Self-supervised Speech Models [53.633222197712875]
自己教師付き学習は、異なる音声タスクの強力な表現を学習することができる。
下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。
90%以上のパラメータ削減を達成できることを示す。
論文 参考訳(メタデータ) (2022-10-10T11:08:12Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。