論文の概要: Annolid: Annotate, Segment, and Track Anything You Need
- arxiv url: http://arxiv.org/abs/2403.18690v1
- Date: Wed, 27 Mar 2024 15:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 16:19:17.941963
- Title: Annolid: Annotate, Segment, and Track Anything You Need
- Title(参考訳): Annolid: 必要なものはすべてアノテーション、セグメンテーション、追跡
- Authors: Chen Yang, Thomas A. Cleland,
- Abstract要約: Annolidは、ビデオファイル内の研究対象のセグメンテーション、ラベル付け、追跡のために設計されたソフトウェアパッケージである。
最先端のインスタンスセグメンテーションメソッドに基づいて、AnnolidはCutieビデオオブジェクトセグメンテーションモデルを利用している。
Segment Anything と Grounding-DINO の戦略を統合することで、認識可能な動物や物体の自動マスキングとセグメンテーションをテキストコマンドで実現する。
- 参考スコア(独自算出の注目度): 2.0517786943861376
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Annolid is a deep learning-based software package designed for the segmentation, labeling, and tracking of research targets within video files, focusing primarily on animal behavior analysis. Based on state-of-the-art instance segmentation methods, Annolid now harnesses the Cutie video object segmentation model to achieve resilient, markerless tracking of multiple animals from single annotated frames, even in environments in which they may be partially or entirely concealed by environmental features or by one another. Our integration of Segment Anything and Grounding-DINO strategies additionally enables the automatic masking and segmentation of recognizable animals and objects by text command, removing the need for manual annotation. Annolid's comprehensive approach to object segmentation flexibly accommodates a broad spectrum of behavior analysis applications, enabling the classification of diverse behavioral states such as freezing, digging, pup huddling, and social interactions in addition to the tracking of animals and their body parts.
- Abstract(参考訳): Annolidは、ビデオファイル内の研究対象のセグメンテーション、ラベル付け、追跡のために設計されたディープラーニングベースのソフトウェアパッケージで、主に動物の行動分析に焦点を当てている。
最先端のインスタンスセグメンテーション法に基づいて、AnnolidはCutieビデオオブジェクトセグメンテーションモデルを利用して、1つのアノテートされたフレームから複数の動物を回復力のあるマーカーなしで追跡する。
Segment Anything と Grounding-DINO の戦略を統合することで、認識可能な動物や物体のテキストコマンドによる自動マスキングとセグメンテーションが可能になり、手作業によるアノテーションの必要がなくなる。
オブジェクトセグメンテーションに対するAnnolidの包括的なアプローチは、幅広い行動分析の応用に柔軟に対応し、凍結、掘削、パップハドリング、社会的相互作用などの多様な行動状態の分類と、動物とその身体部分の追跡を可能にする。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Automated Behavioral Analysis Using Instance Segmentation [2.043437148047176]
動物行動分析は、生命科学や生物医学研究など、様々な分野で重要な役割を果たしている。
利用可能なデータの不足とラベル付きデータセットの大量取得に伴う高コストが大きな課題となっている。
本稿では,これらの問題に対処するために,インスタンスセグメンテーションに基づくトランスファー学習を活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T20:36:36Z) - Towards Open-World Segmentation of Parts [16.056921233445784]
本稿では,クラスに依存しない部分分割タスクを提案する。
パートクラスなしでトレーニングされたモデルは、トレーニング時に見えない部分のローカライズとオブジェクトへのセグメンテーションを改善することができる、と私たちは主張する。
当社のアプローチでは,オープンワールドのパートセグメンテーションに向けた重要なステップとして,注目すべきかつ一貫した成果をあげています。
論文 参考訳(メタデータ) (2023-05-26T10:34:58Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Animal Kingdom: A Large and Diverse Dataset for Animal Behavior
Understanding [4.606145900630665]
大規模で多様なデータセットであるAnimal Kingdomを作成し、複数の注釈付きタスクを提供します。
私たちのデータセットには、関連する動物行動セグメントをローカライズする50時間のアノテーション付きビデオが含まれています。
本研究では,未確認新種動物を用いた行動認識の一般的な特徴と特定の特徴を学習する協調行動認識(CARe)モデルを提案する。
論文 参考訳(メタデータ) (2022-04-18T02:05:15Z) - The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos [59.12750806239545]
動画は移動成分によって同じシーンを異なる視点で見ることができ、適切な領域分割と領域フローは相互のビュー合成を可能にする。
モデルでは,1枚の画像に対して特徴に基づく領域分割を出力する出現経路と,1枚の画像に対して動作特徴を出力する動き経路の2つの経路から開始する。
セグメントフローに基づく視線合成誤差を最小限に抑えるためにモデルを訓練することにより、我々の外観経路と運動経路は、それぞれ低レベルのエッジや光フローから構築することなく、領域のセグメンテーションとフロー推定を自動的に学習する。
論文 参考訳(メタデータ) (2021-11-11T18:59:11Z) - Learning Visual Affordance Grounding from Demonstration Videos [76.46484684007706]
Affordance Groundingは、画像/ビデオから人とオブジェクト間のすべての可能な相互作用領域を分割することを目的としている。
実演ビデオにおける手の位置と動作から得られる手掛かりを活用できる,手支援型住宅地すべりネットワーク(HAGNet)を提案する。
論文 参考訳(メタデータ) (2021-08-12T11:45:38Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。