論文の概要: SILVI: Simple Interface for Labeling Video Interactions
- arxiv url: http://arxiv.org/abs/2511.03819v1
- Date: Wed, 05 Nov 2025 19:39:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.19687
- Title: SILVI: Simple Interface for Labeling Video Interactions
- Title(参考訳): SILVI:ビデオインタラクションのラベル付けのためのシンプルなインタフェース
- Authors: Ozan Kanbertay, Richard Vogg, Elif Karakoc, Peter M. Kappeler, Claudia Fichtel, Alexander S. Ecker,
- Abstract要約: SILVIは、ビデオデータのためのオープンソースのラベルソフトウェアである。
研究者はビデオデータに直接アノテートしたり、対話したりすることができる。
コンピュータビジョンモデルのトレーニングと検証に適した構造化出力を生成する。
- 参考スコア(独自算出の注目度): 37.845796174011475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer vision methods are increasingly used for the automated analysis of large volumes of video data collected through camera traps, drones, or direct observations of animals in the wild. While recent advances have focused primarily on detecting individual actions, much less work has addressed the detection and annotation of interactions -- a crucial aspect for understanding social and individualized animal behavior. Existing open-source annotation tools support either behavioral labeling without localization of individuals, or localization without the capacity to capture interactions. To bridge this gap, we present SILVI, an open-source labeling software that integrates both functionalities. SILVI enables researchers to annotate behaviors and interactions directly within video data, generating structured outputs suitable for training and validating computer vision models. By linking behavioral ecology with computer vision, SILVI facilitates the development of automated approaches for fine-grained behavioral analyses. Although developed primarily in the context of animal behavior, SILVI could be useful more broadly to annotate human interactions in other videos that require extracting dynamic scene graphs. The software, along with documentation and download instructions, is available at: https://gitlab.gwdg.de/kanbertay/interaction-labelling-app.
- Abstract(参考訳): コンピュータビジョンの手法は、カメラトラップ、ドローン、野生の動物の直接観察を通じて収集された大量のビデオデータの自動分析にますます使われている。
最近の進歩は、主に個人の行動を検出することに焦点を当てているが、社会的および個別化された動物の行動を理解する上で重要な側面である相互作用の検出とアノテーションに対処する作業は、はるかに少ない。
既存のオープンソースアノテーションツールは、個人をローカライズせずに行動ラベリングをサポートするか、インタラクションをキャプチャする能力を持たないローカライゼーションをサポートする。
このギャップを埋めるために、両方の機能を統合するオープンソースのラベルソフトウェアであるSILVIを紹介します。
SILVIにより、研究者はビデオデータに直接アノテートし、コンピュータビジョンモデルのトレーニングと検証に適した構造化された出力を生成することができる。
行動生態学とコンピュータビジョンを結びつけることで、SILVIはきめ細かい行動分析のための自動アプローチの開発を促進する。
動物行動の文脈で主に開発されたが、SILVIはダイナミックなシーングラフの抽出を必要とする他のビデオにおいて、人間の対話を注釈づけするためにより広範囲に有用である。
このソフトウェアとドキュメンテーションとダウンロード手順は、https://gitlab.gwdg.de/kanbertay/interaction-labelling-app.comで公開されている。
関連論文リスト
- I-MPN: Inductive Message Passing Network for Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data [4.487146086221174]
本稿では,移動眼球追跡設定における物体の自動認識のための新しい人間中心学習アルゴリズムを提案する。
提案手法は,オブジェクト検出器と空間的関係を考慮した誘導型メッセージパッシングネットワーク(I-MPN)をシームレスに統合し,ノードプロファイル情報を活用し,オブジェクト相関を捉える。
論文 参考訳(メタデータ) (2024-06-10T13:08:31Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Computer Vision for Primate Behavior Analysis in the Wild [61.08941894580172]
ビデオに基づく行動監視は、動物の認知と行動を研究する方法を変える大きな可能性を秘めている。
今でも、エキサイティングな見通しと、今日実際に達成できるものの間には、かなり大きなギャップがある。
論文 参考訳(メタデータ) (2024-01-29T18:59:56Z) - CVB: A Video Dataset of Cattle Visual Behaviors [13.233877352490923]
牛の行動認識のための既存のデータセットは、ほとんど小さく、明確に定義されたラベルがないか、非現実的な制御環境で収集される。
キャトル・ビジュアル・ビヘイビアス (CVB) と呼ばれる新しいデータセットを導入し、502本のビデオクリップを15秒毎に撮影し、自然の照明条件で撮影し、11種類の視覚的に知覚できる牛の行動に注釈を付ける。
論文 参考訳(メタデータ) (2023-05-26T00:44:11Z) - Beyond Tracking: Using Deep Learning to Discover Novel Interactions in
Biological Swarms [3.441021278275805]
本稿では,システムレベルの状態を全体像から直接予測するディープ・ネットワーク・モデルを提案する。
結果の予測モデルは、人間の理解した予測モデルに基づいていないため、説明モジュールを使用する。
これは、行動生態学における人工知能の例である。
論文 参考訳(メタデータ) (2021-08-20T22:50:41Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal
Networks for HOI in videos [13.25502885135043]
ビデオから人間と物体の相互作用を分析すると、人間とビデオに存在する物体の関係が特定される。
映像中の複数の粒度の真理を効果的に捉え,視覚的特徴を学習するための階層的アプローチ LIGHTEN を提案する。
V-COCOにおける人間と物体の相互作用検出(88.9%と92.6%)とCAD-120の予測タスクおよび画像ベースHOI検出の競争結果の最先端化を実現した。
論文 参考訳(メタデータ) (2020-12-17T05:44:07Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。