論文の概要: Video Relationship Detection Using Mixture of Experts
- arxiv url: http://arxiv.org/abs/2403.03994v1
- Date: Wed, 6 Mar 2024 19:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:18:54.412524
- Title: Video Relationship Detection Using Mixture of Experts
- Title(参考訳): エキスパートの混合を用いた映像関係検出
- Authors: Ala Shaabana and Zahra Gharaee and Paul Fieguth
- Abstract要約: 本稿では,専門家の混在を利用した視覚的関係検出手法であるMoE-VRDを紹介する。
MoE-VRDは、視覚処理から関係を抽出するために、主語、述語、オブジェクトの形で言語三つ子を識別する。
実験結果から, 条件付き計算能力と混合実験手法のスケーラビリティは, 最先端手法と比較して, 視覚的関係の検出性能に優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 1.6574413179773761
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine comprehension of visual information from images and videos by neural
networks faces two primary challenges. Firstly, there exists a computational
and inference gap in connecting vision and language, making it difficult to
accurately determine which object a given agent acts on and represent it
through language. Secondly, classifiers trained by a single, monolithic neural
network often lack stability and generalization. To overcome these challenges,
we introduce MoE-VRD, a novel approach to visual relationship detection
utilizing a mixture of experts. MoE-VRD identifies language triplets in the
form of < subject, predicate, object> tuples to extract relationships from
visual processing. Leveraging recent advancements in visual relationship
detection, MoE-VRD addresses the requirement for action recognition in
establishing relationships between subjects (acting) and objects (being acted
upon). In contrast to single monolithic networks, MoE-VRD employs multiple
small models as experts, whose outputs are aggregated. Each expert in MoE-VRD
specializes in visual relationship learning and object tagging. By utilizing a
sparsely-gated mixture of experts, MoE-VRD enables conditional computation and
significantly enhances neural network capacity without increasing computational
complexity. Our experimental results demonstrate that the conditional
computation capabilities and scalability of the mixture-of-experts approach
lead to superior performance in visual relationship detection compared to
state-of-the-art methods.
- Abstract(参考訳): ニューラルネットワークによる画像やビデオからの視覚情報のマシン理解は、2つの大きな課題に直面している。
まず、視覚と言語をつなぐ計算と推論のギャップがあり、与えられたエージェントがどのオブジェクトに作用するかを正確に決定し、言語で表現することが困難である。
第二に、単一のモノリシックニューラルネットワークでトレーニングされた分類器は、しばしば安定性と一般化を欠いている。
これらの課題を克服するために,専門家の混在を利用した視覚的関係検出手法であるMoE-VRDを導入する。
MoE-VRDは,< subject, predicate, object> tuplesの形で言語三つ子を識別し,視覚処理から関係を抽出する。
視覚的関係検出の最近の進歩を活用して、MoE-VRDは、対象(行動)と対象(行動)の関係を確立するための行動認識の要件に対処する。
単一のモノリシックネットワークとは対照的に、moe-vrdは複数の小さなモデルを専門家として採用している。
MoE-VRDの専門家はそれぞれ、視覚的関係学習とオブジェクトタグ付けを専門としている。
MoE-VRDは、疎結合な専門家の混合物を利用することで、条件付き計算を可能にし、計算複雑性を増大させることなく、ニューラルネットワークの容量を大幅に向上する。
実験の結果,mixing-of-expertsアプローチの条件計算能力とスケーラビリティは,最先端手法と比較して視覚関係検出性能に優れることがわかった。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting [68.37943632270505]
Open-vocabulary video visual relationship detectionは、ビデオの視覚的関係の検出をカテゴリを超えて拡張することを目的としている。
既存の方法は、通常、閉じたデータセットで訓練された軌跡検出器を使用して物体の軌跡を検出する。
我々はCLIPの豊富な意味的知識を活用して新しい関係を発見するオープン語彙関係を提案する。
論文 参考訳(メタデータ) (2024-09-19T06:25:01Z) - Sparse Multitask Learning for Efficient Neural Representation of Motor
Imagery and Execution [30.186917337606477]
運動画像(MI)と運動実行(ME)タスクのためのスパースマルチタスク学習フレームワークを提案する。
MI-ME分類のためのデュアルタスクCNNモデルが与えられた場合、過渡的な接続に対して、サリエンシに基づくスペーシフィケーションアプローチを適用する。
以上の結果から, この調整された疎水性は, 過度に適合する問題を緩和し, 少ないデータ量でテスト性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T09:06:16Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Weakly-Supervised HOI Detection from Interaction Labels Only and
Language/Vision-Language Priors [36.75629570208193]
人-物相互作用検出(Human-object Interaction, HOI)は、人-物対とその相互作用カテゴリを、与えられた自然な画像から抽出することを目的としている。
本稿では,画像レベルのインタラクションラベルのみを用いて,文献における最も弱い監視設定によるHOI検出に取り組む。
まず,非相互作用型人間とオブジェクトの提案を駆使して,バッグ内の正の対の質を高める手法を提案する。
第2に、大きな言語モデルを使用して、人間とオブジェクトのカテゴリ間の相互作用を問合せし、モデルを強調しないよう強制する。
論文 参考訳(メタデータ) (2023-03-09T19:08:02Z) - Knowledge-augmented Few-shot Visual Relation Detection [25.457693302327637]
視覚的関係検出(VRD)は、画像理解のためのオブジェクト間の関係を検出することを目的としている。
既存のVRD手法の多くは、良好なパフォーマンスを達成するために、各関係の何千ものトレーニングサンプルに依存している。
我々は、テキスト知識と視覚的関係知識の両方を活用する、知識を付加した、数発のVRDフレームワークを考案する。
論文 参考訳(メタデータ) (2023-03-09T15:38:40Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。