論文の概要: Appearance Fusion of Multiple Cues for Video Co-localization
- arxiv url: http://arxiv.org/abs/2003.09556v2
- Date: Sat, 18 Jul 2020 04:53:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 13:17:09.005844
- Title: Appearance Fusion of Multiple Cues for Video Co-localization
- Title(参考訳): ビデオコローカライゼーションのための複数キューの出現融合
- Authors: Koteswar Rao Jerripothula
- Abstract要約: 本研究は、複数のオブジェクト関連キューを活用しながら、ビデオのジョイントオブジェクト発見問題に対処する。
従来の空間融合法とは対照的に,新しい外観融合法が提案されている。
- 参考スコア(独自算出の注目度): 3.908842679355254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work addresses the joint object discovery problem in videos while
utilizing multiple object-related cues. In contrast to the usual spatial fusion
approach, a novel appearance fusion approach is presented here. Specifically,
this paper proposes an effective fusion process of different GMMs derived from
multiple cues into one GMM. Much the same as any fusion strategy, this approach
also needs some guidance. The proposed method relies on reliability and
consensus phenomenon for guidance. As a case study, we pursue the "video
co-localization" object discovery problem to propose our methodology. Our
experiments on YouTube Objects and YouTube Co-localization datasets demonstrate
that the proposed method of appearance fusion undoubtedly has an advantage over
both the spatial fusion strategy and the current state-of-the-art video
co-localization methods.
- Abstract(参考訳): 本研究は、複数のオブジェクト関連キューを活用しながら、ビデオのジョイントオブジェクト発見問題に対処する。
従来の空間融合法とは対照的に,新しい外観融合法が提案されている。
具体的には,複数のキューから得られた異なるGMMを1つのGMMに効果的に融合するプロセスを提案する。
融合戦略とほとんど同じですが、このアプローチにはガイダンスも必要です。
提案手法は, 信頼性とコンセンサス現象に依拠している。
事例研究として,提案手法を提案するために「ビデオ共局在化」オブジェクト発見問題を追求する。
youtube objects と youtube co-localization データセットを用いた実験により,提案手法が空間的融合戦略と現状ビデオ共局在法の両方に対して明らかに有利であることを証明した。
関連論文リスト
- Fusion Matters: Learning Fusion in Deep Click-through Rate Prediction Models [27.477136474888564]
本稿では,接続学習と操作選択の両方を包含して,融合学習を自動化する手法であるOpsFusionを紹介する。
実験は3つの大規模データセット上で実施される。
論文 参考訳(メタデータ) (2024-11-24T06:21:59Z) - Zero-Shot Monocular Motion Segmentation in the Wild by Combining Deep Learning with Geometric Motion Model Fusion [6.805017878728801]
そこで本研究では,最先端の動作セグメント化をゼロショット方式で実現した,単分子密分法を提案する。
提案手法は,深層学習と幾何モデル融合法の強みを相乗的に組み合わせた手法である。
実験により,いくつかの動作セグメンテーションデータセット上での競合結果が得られ,特定のベンチマーク上での最先端の教師付き手法を超越した結果が得られた。
論文 参考訳(メタデータ) (2024-05-02T20:42:17Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Modeling Uncertainty and Using Post-fusion as Fallback Improves Retrieval Augmented Generation with LLMs [80.74263278847063]
検索されたパスと大きな言語モデル(LLM)の統合は、オープンドメインの質問応答の改善に大きく貢献している。
本稿では,検索したパスをLLMと組み合わせて回答生成を向上させる方法について検討する。
論文 参考訳(メタデータ) (2023-08-24T05:26:54Z) - A Comparative Assessment of Multi-view fusion learning for Crop
Classification [3.883984493622102]
この研究は、CropHarvestデータセットにおける作物分類のための異なる融合戦略を評価する。
本稿では,3つの異なるデータセットに対する多視点融合法の比較を行い,テスト領域によって異なる手法が最高の性能を得ることを示す。
論文 参考訳(メタデータ) (2023-08-10T08:03:58Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Light Field Saliency Detection with Dual Local Graph Learning
andReciprocative Guidance [148.9832328803202]
我々は、グラフネットワークを介して焦点スタック内のインフォメーション融合をモデル化する。
我々は、全焦点パタンを用いて焦点スタック融合過程をガイドする新しいデュアルグラフモデルを構築した。
論文 参考訳(メタデータ) (2021-10-02T00:54:39Z) - Centralized Information Interaction for Salient Object Detection [68.8587064889475]
U字型構造は、多スケールの機能を効率的に組み合わせるサリエント物体検出に長けている。
本稿では,これらの接続を集中化することにより,相互に相互に情報交換を行うことができることを示す。
本手法は, ボトムアップ経路とトップダウン経路の接続を置換することにより, 既存のU字型サルエント物体検出手法と協調することができる。
論文 参考訳(メタデータ) (2020-12-21T12:42:06Z) - MNIST-NET10: A heterogeneous deep networks fusion based on the degree of
certainty to reach 0.1 error rate. Ensembles overview and proposal [1.4908563154226955]
MNIST-NET10は、確信の度合いに基づく複雑なヘテロジニアス融合アーキテクチャである。
データ、モデル、融合戦略の観点からの2つの異種スキームを組み合わせる。
MNIST-NET10はMNISTで10の誤分類画像で新記録に達した。
論文 参考訳(メタデータ) (2020-01-30T18:13:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。