Fugu-MT 論文翻訳(概要): Towards Parameter-Efficient Integration of Pre-Trained Language Models In Temporal Video Grounding

論文の概要: Towards Parameter-Efficient Integration of Pre-Trained Language Models In Temporal Video Grounding

arxiv url: http://arxiv.org/abs/2209.13359v1
Date: Mon, 26 Sep 2022 08:11:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-28 14:30:27.201485
Title: Towards Parameter-Efficient Integration of Pre-Trained Language Models In Temporal Video Grounding
Title（参考訳）: 時間的ビデオグラウンドにおける事前学習言語モデルのパラメータ効率向上に向けて
Authors: Erica K. Shimomoto, Edison Marrese-Taylor, Hiroya Takamura, Ichiro Kobayashi, Hideki Nakayama, Yusuke Miyao
Abstract要約: 本稿では,TVG(Temporal Video Grounding)の課題について検討する。目標は、提供された自然言語クエリによって記述されたビデオ内のアクションインスタンスの時間的境界を認識し、決定することである。最近の研究は、大規模事前学習言語モデル(PLM)を用いてクエリを直接符号化することで、この課題を解決する。
参考スコア（独自算出の注目度）: 37.199310579532884
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper explores the task of Temporal Video Grounding (TVG) where, given an untrimmed video and a query sentence, the goal is to recognize and determine temporal boundaries of action instances in the video described by the provided natural language queries. Recent works solve this task by directly encoding the query using large pre-trained language models (PLM). However, isolating the effects of the improved language representations is difficult, as these works also propose improvements in the visual inputs. Furthermore, these PLMs significantly increase the computational cost of training TVG models. Therefore, this paper studies the effects of PLMs in the TVG task and assesses the applicability of NLP parameter-efficient training alternatives based on adapters. We couple popular PLMs with a selection of existing approaches and test different adapters to reduce the impact of the additional parameters. Our results on three challenging datasets show that TVG models could greatly benefit from PLMs when these are fine-tuned for the task and that adapters are an effective alternative to full fine-tuning, even though they are not tailored for our task. Concretely, adapters helped save on computational cost, allowing PLM integration in larger TVG models and delivering results comparable to the state-of-the-art models. Finally, through benchmarking different types of adapters in TVG, our results shed light on what kind of adapters work best for each studied case.
Abstract（参考訳）: 本稿では,提案する自然言語クエリによって記述されたビデオ中のアクションインスタンスの時間的境界を認識し,決定することを目的とした,ビデオ検索(TVG)の課題について検討する。最近の研究は、大規模事前学習言語モデル(PLM)を用いてクエリを直接符号化することで、この課題を解決する。しかし,言語表現の改善効果の分離は困難であり,視覚入力の改善も提案されている。さらに、これらのPLMは、TVGモデルをトレーニングする際の計算コストを大幅に向上させる。そこで本研究では,TVG タスクにおける PLM の効果について検討し,アダプタに基づく NLP パラメータ効率の訓練方法の適用性を評価する。一般的なplmと既存のアプローチを組み合わせることで、追加パラメータの影響を減らすために異なるアダプタをテストする。 3つの挑戦的データセットから得られた結果から,TVG モデルがタスク用に微調整された場合の PLM の恩恵が大きく,アダプタがタスク用に調整されていない場合でも,完全な微調整に代わる効果的な代替手段であることが示唆された。具体的には、アダプタは計算コストを削減し、より大きなTVGモデルへのPLM統合を可能にし、最先端のモデルに匹敵する結果を提供する。最後に、TVGのさまざまなタイプのアダプタをベンチマークすることで、研究対象のケースごとにどのアダプタが最適かが明らかになった。

関連論文リスト

TEMPLE:Temporal Preference Learning of Video LLMs via Difficulty Scheduling and Pre-SFT Alignment [48.94844127553743]
TEMPLEはビデオ大言語モデルの時間的推論能力を高めるための体系的なフレームワークである。提案手法は,比較的小さな自己生成DPOデータを用いて,複数のベンチマークでビデオLLM性能を継続的に改善する。我々のTEMPLEは、SFTベースの手法をスケーラブルかつ効率的に補完するものであり、信頼性の高いビデオLLMを開発するための道を開くものである。
論文参考訳（メタデータ） (2025-03-21T08:00:29Z)
Train More Parameters But Mind Their Placement: Insights into Language Adaptation with PEFT [0.8702432681310401]
我々は、構造化されていないテキストコーパスを用いて、LLMの生成性能を向上させることを目的としている。トレーニング可能なパラメータの数が増加すると、言語適応性が向上し、堅牢になる。 0ショットの要約では改善は一貫しているが、いくつかの適応されたモデルは、より長いコンテキストの長さで苦労する。
論文参考訳（メタデータ） (2024-12-17T08:44:00Z)
Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters Themselves [123.07450481623124]
下流タスクに視覚言語モデルを適用するための新しいパラダイムとして,Skip Tuningを提案する。既存のPTやアダプタベースの方法とは異なり、Skip Tuningは追加のコンテキストベクトルやアダプタモジュールを導入することなく、FTベースラインにLayer-wise Skipping(LSkip)とClass-wise Skipping(CSkip)を適用する。
論文参考訳（メタデータ） (2024-12-16T07:33:23Z)
Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文参考訳（メタデータ） (2024-05-09T01:40:38Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
Parameter-Efficient Fine-Tuning for Pre-Trained Vision Models: A Survey and Benchmark [97.8968058408759]
事前学習された視覚モデル(PVM)は、幅広い下流の視覚タスクに顕著な適応性を示した。これらのモデルが数十億または数兆のパラメータにスケールするにつれて、計算と記憶の要求が高いため、従来の完全な微調整はますます非現実的になっている。パラメータ効率の良いファインチューニング(PEFT)は、モデルパラメータを最小限に調整しながら、完全なファインチューニングに匹敵するパフォーマンスを実現するための、有望な代替手段として登場した。
論文参考訳（メタデータ） (2024-02-03T19:12:20Z)
p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。 PETLはフル微調整の代替として注目されている。グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文参考訳（メタデータ） (2023-12-17T05:30:35Z)
PEMA: An Offsite-Tunable Plug-in External Memory Adaptation for Language Models [6.622419351156256]
プレトレーニング言語モデル (PLM) は、様々な下流のNLPタスクにおいて顕著な性能を示す。大量の資源を必要とするため、多くのPLM重みは機密である。本稿では,PEMA(Plug-in external Memory Adaptation)を紹介する。すべての重みを必要とせずにファインチューニングを可能にするPEFT (Efficient Fine-Tuning) 法。
論文参考訳（メタデータ） (2023-11-14T23:20:51Z)
AdapterEM: Pre-trained Language Model Adaptation for Generalized Entity Matching using Adapter-tuning [3.4754314910585626]
本稿では,アダプタをベースとした微調整PrLMのためのパラメータ効率のパラダイムを提案する。提案手法は,フルスケールのPrLMファインチューニングとプロンプトチューニングのベースラインに匹敵する,あるいは優れた性能を実現する。
論文参考訳（メタデータ） (2023-05-30T04:03:23Z)
LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文参考訳（メタデータ） (2023-04-04T16:31:37Z)
Exploring Efficient-tuning Methods in Self-supervised Speech Models [53.633222197712875]
自己教師付き学習は、異なる音声タスクの強力な表現を学習することができる。下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。 90%以上のパラメータ削減を達成できることを示す。
論文参考訳（メタデータ） (2022-10-10T11:08:12Z)
Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文参考訳（メタデータ） (2022-10-03T09:54:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。