論文の概要: Global2Local: Efficient Structure Search for Video Action Segmentation
- arxiv url: http://arxiv.org/abs/2101.00910v1
- Date: Mon, 4 Jan 2021 12:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 22:56:02.916944
- Title: Global2Local: Efficient Structure Search for Video Action Segmentation
- Title(参考訳): global2local: ビデオアクションセグメンテーションのための効率的な構造探索
- Authors: Shang-Hua Gao, Qi Han, Zhong-Yu Li, Pai Peng, Liang Wang, Ming-Ming
Cheng
- Abstract要約: グローバルからローカルへの検索方式により,より良い受容的場の組み合わせを見つけることを提案する。
提案手法は, 粗い組み合わせを見つけるためにグローバル検索と局所探索を併用し, 洗練された受容場の組み合わせパターンを得る。
我々のグローバル-ローカル検索は、既存のアクションセグメンテーション手法にプラグインすることで、最先端のパフォーマンスを実現することができる。
- 参考スコア(独自算出の注目度): 64.99046987598075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal receptive fields of models play an important role in action
segmentation. Large receptive fields facilitate the long-term relations among
video clips while small receptive fields help capture the local details.
Existing methods construct models with hand-designed receptive fields in
layers. Can we effectively search for receptive field combinations to replace
hand-designed patterns? To answer this question, we propose to find better
receptive field combinations through a global-to-local search scheme. Our
search scheme exploits both global search to find the coarse combinations and
local search to get the refined receptive field combination patterns further.
The global search finds possible coarse combinations other than human-designed
patterns. On top of the global search, we propose an expectation guided
iterative local search scheme to refine combinations effectively. Our
global-to-local search can be plugged into existing action segmentation methods
to achieve state-of-the-art performance.
- Abstract(参考訳): モデルの時間受容場は、アクションセグメンテーションにおいて重要な役割を果たす。
大きな受容野はビデオクリップ間の長期的な関係を促進し、小さな受容野は局所的な詳細を捉えるのに役立つ。
既存の手法は、層に手書きの受容場を持つモデルを構築する。
手作りのパターンを置き換えるための受容的場の組み合わせを効果的に探せるか?
そこで本研究では,グローバル・ローカル検索手法を用いて,より優れた受容場の組み合わせを求める。
検索手法は,グローバル検索と局所検索の両方を利用して,より洗練された受容場の組み合わせパターンを得る。
グローバル検索は、人間がデザインしたパターン以外の粗い組み合わせを見つける。
グローバル検索に加えて, 組み合わせを効果的に洗練するために, 反復的局所探索法を期待して提案する。
我々のグローバル・ローカル検索は、既存のアクションセグメンテーション手法にプラグインして最先端のパフォーマンスを実現することができる。
関連論文リスト
- Leveraging Large Language Models for Multimodal Search [0.6249768559720121]
本稿では,Fashion200Kデータセット上での新たなパフォーマンスマイルストーンを実現する,新しいマルチモーダル検索モデルを提案する。
また,Large Language Models (LLM) を統合した新たな検索インタフェースを提案する。
論文 参考訳(メタデータ) (2024-04-24T10:30:42Z) - Large Search Model: Redefining Search Stack in the Era of LLMs [63.503320030117145]
我々は,1つの大言語モデル(LLM)で検索タスクを統一することにより,従来の検索スタックを再定義する,大規模検索モデルと呼ばれる新しい概念的フレームワークを導入する。
全てのタスクは自動回帰テキスト生成問題として定式化され、自然言語のプロンプトを使ってタスクをカスタマイズできる。
提案フレームワークは,LLMの強力な言語理解と推論能力を活用し,既存の検索スタックを簡素化しつつ,検索結果の質を向上させる能力を提供する。
論文 参考訳(メタデータ) (2023-10-23T05:52:09Z) - A Visual Active Search Framework for Geospatial Exploration [36.31732056074638]
多くの問題は、航空画像によって支援された地理空間探索の形式と見なすことができる。
我々は3つの重要な入力を持つ視覚的能動探索(VAS)フレームワークでこの問題をモデル化する。
完全注釈付き検索タスクの集合からメタ検索ポリシーを学習するVASのための強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-11-28T21:53:05Z) - RF-Next: Efficient Receptive Field Search for Convolutional Neural
Networks [86.6139619721343]
そこで本研究では,グローバル・ローカル・サーチ手法を用いて,より優れた受容場の組み合わせを求める。
我々の検索手法は, 粗い組み合わせを見つけるためにグローバル検索と, 洗練された受容場の組み合わせを得るために局所探索の両方を利用する。
我々のRF-Nextモデルは、様々なモデルに受容場探索を接続し、多くのタスクのパフォーマンスを高める。
論文 参考訳(メタデータ) (2022-06-14T06:56:26Z) - CrossBeam: Learning to Search in Bottom-Up Program Synthesis [51.37514793318815]
ボトムアップ合成のためのハンズオン検索ポリシーを学習するためのニューラルネットワークのトレーニングを提案する。
私たちのアプローチは、CrossBeamと呼ばれ、ニューラルモデルを使用して、以前に探索されたプログラムを新しいプログラムに組み合わせる方法を選択します。
我々はCrossBeamが効率的に検索することを学び、最先端技術と比較してプログラム空間のより小さな部分を探索する。
論文 参考訳(メタデータ) (2022-03-20T04:41:05Z) - Exploring Complicated Search Spaces with Interleaving-Free Sampling [127.07551427957362]
本稿では,長距離接続を伴う複雑な検索空間上に探索アルゴリズムを構築する。
我々はtextbfIF-NAS という単純なアルゴリズムを提案し、異なるサブネットワークを構築するために周期的なサンプリング戦略を実行する。
提案した探索空間において、IF-NASはランダムサンプリングと従来の重み付け検索のアルゴリズムを有意差で上回っている。
論文 参考訳(メタデータ) (2021-12-05T06:42:48Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z) - NASE: Learning Knowledge Graph Embedding for Link Prediction via Neural
Architecture Search [9.634626241415916]
リンク予測は、知識グラフ(KG)におけるエンティティ間の欠落した接続を予測するタスクである
これまでの研究では、Automated Machine Learning(AutoML)を使用して、データセットに最適なモデルを探していた。
リンク予測タスクのための新しいニューラルネットワーク探索(NAS)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-18T03:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。