Fugu-MT 論文翻訳(概要): Exploring Modulated Detection Transformer as a Tool for Action Recognition in Videos

論文の概要: Exploring Modulated Detection Transformer as a Tool for Action Recognition in Videos

arxiv url: http://arxiv.org/abs/2209.10126v1
Date: Wed, 21 Sep 2022 05:19:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-22 15:42:58.768268
Title: Exploring Modulated Detection Transformer as a Tool for Action Recognition in Videos
Title（参考訳）: ビデオにおける行動認識ツールとしての変調検出変換器の探索
Authors: Tom\'as Crisol, Joel Ermantraut, Adri\'an Rostagno, Santiago L. Aggio, Javier Iparraguirre
Abstract要約: MDETR(Modulated Detection Transformer)は、エンドツーエンドのマルチモーダル理解モデルである。設計されていない課題に対処するために,マルチモーダルモデルを使用することが可能であることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: During recent years transformers architectures have been growing in popularity. Modulated Detection Transformer (MDETR) is an end-to-end multi-modal understanding model that performs tasks such as phase grounding, referring expression comprehension, referring expression segmentation, and visual question answering. One remarkable aspect of the model is the capacity to infer over classes that it was not previously trained for. In this work we explore the use of MDETR in a new task, action detection, without any previous training. We obtain quantitative results using the Atomic Visual Actions dataset. Although the model does not report the best performance in the task, we believe that it is an interesting finding. We show that it is possible to use a multi-modal model to tackle a task that it was not designed for. Finally, we believe that this line of research may lead into the generalization of MDETR in additional downstream tasks.
Abstract（参考訳）: 近年、トランスフォーマーアーキテクチャは人気が高まっている。 MDETR(Modulated Detection Transformer)は、位相グラウンド、参照表現理解、参照表現セグメンテーション、視覚質問応答などのタスクを実行する、エンドツーエンドのマルチモーダル理解モデルである。このモデルの顕著な側面の1つは、以前にトレーニングされなかったクラスを推論する能力である。本研究では,新しいタスクであるアクション検出におけるmdetrの使用を,事前のトレーニングなしで検討する。我々はAtomic Visual Actionsデータセットを用いて定量的な結果を得る。このモデルはタスクで最高のパフォーマンスを報告していませんが、興味深い発見だと思います。設計されていない課題に対処するために,マルチモーダルモデルを使用することが可能であることを示す。最後に、この研究の行方が、下流タスクにおけるMDETRの一般化につながると信じている。

関連論文リスト

MOS: Model Surgery for Pre-Trained Model-Based Class-Incremental Learning [62.78292142632335]
CIL(Class-Incremental Learning)は、古いクラスを忘れずに、新しいクラスの知識を継続的に獲得するモデルを必要とする。既存の作業は、モデルを調整するために軽量コンポーネントを活用することを目指している。従来の知識を忘れないようにモデルを救うため, モーデル手術(MOS)を提案する。
論文参考訳（メタデータ） (2024-12-12T16:57:20Z)
MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。 SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文参考訳（メタデータ） (2024-03-20T09:17:22Z)
Contrastive Learning for Multi-Object Tracking with Transformers [79.61791059432558]
我々は、DETRをインスタンスレベルのコントラスト損失を用いてMOTモデルに変換する方法を示す。本手法では,検出能力を維持しながらオブジェクトの外観を学習し,オーバーヘッドを少なく抑える。そのパフォーマンスは、BDD100Kデータセットにおいて、以前の最先端の+2.6 mMOTAを上回っている。
論文参考訳（メタデータ） (2023-11-14T10:07:52Z)
Pre-train, Adapt and Detect: Multi-Task Adapter Tuning for Camouflaged Object Detection [38.5505943598037]
カモフラージュされた物体を検出するために, 事前学習, 適応, 検出のパラダイムを提案する。大規模な事前学習モデルを導入することで、大量のマルチモーダルデータから得られた豊富な知識を直接CODに転送することができる。提案手法は既存のCODモデルよりも大きなマージンで優れている。
論文参考訳（メタデータ） (2023-07-20T08:25:38Z)
SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文参考訳（メタデータ） (2022-07-16T19:25:41Z)
Scaling Novel Object Detection with Weakly Supervised Detection Transformers [21.219817483091166]
Weakly Supervised Detection Transformerを提案する。これは大規模な事前学習データセットからWSODファインタニングへの効率的な知識伝達を可能にする。提案手法は, 大規模オブジェクト検出データセットにおいて, 従来の最先端モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2022-07-11T21:45:54Z)
MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文参考訳（メタデータ） (2022-05-17T13:03:18Z)
Multitask Adaptation by Retrospective Exploration with Learned World Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文参考訳（メタデータ） (2021-10-25T20:02:57Z)
Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文参考訳（メタデータ） (2021-04-25T08:24:06Z)
MM-FSOD: Meta and metric integrated few-shot object detection [14.631208179789583]
メトリクス学習とメタラーニングを統合した効果的なオブジェクト検出フレームワーク(MM-FSOD)を提案する。我々のモデルは、トレーニングサンプルにない新しいカテゴリを正確に認識できるクラスに依存しない検出モデルである。
論文参考訳（メタデータ） (2020-12-30T14:02:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。